Flow Benchmark Toolsのご紹介と公開のお知らせ

Recursiveは本日、当社のAIプラットフォーム「FindFlow」（ファインドフロー）を補完し、強化するためのツールパッケージ「Flow Benchmark Tools」（フロー・ベンチマーク・ツール）を提供開始したことを誇りをもってお知らせいたします。同ツールはオープンソースとして公開することで、「RAG（検索拡張生成）技術を発展させ、世界中のAIコミュニティをエンパワーする」という当社のコミットメントにおいて、重要なマイルストーンとなります。

Flow Benchmark Toolsは、RAGシステムの評価および最適化への大躍進を意味します。Recursiveのプラットフォーム「FindFlow」を拡張するために開発された本ツールは、RAGパイプラインを標準化された包括的な方法でベンチマークするという、AI業界における重要なニーズに応えるものです。

当社はFlow Benchmark Toolsを通じて、次のような意欲的かつ重点的な目標を掲げています：

特に多言語環境においてRAGシステムの性能を評価するための、新たな標準の確立
RAG技術の限界を押し広げるべく、開発者や研究者が必要とするツールの提供
Recursiveが開発したベンチマーク手法のオープンソース化を通じた、AIコミュニティ内での透明性とコラボレーションの促進

‍

RAGとLLMの理解を深めるための背景知識

当社のベンチマーク用ツールの詳細をご理解いただくには、まずこのツールが評価する対象となっている技術が何かを知っていただくことが重要です。LLM（大規模言語モデル）は、広大なニューラルネットワークを活用して、人間が書いたかのようなテキストを理解し、生成させるなど、現代におけるAIシステムの基盤となっています。LLMモデルは、用いられるパラメータの多さによってモデルの評価が行われ、言語使用の一般的なパターンを捉えるのに優れているという特長を持っています。

しかしLLMには、最新の情報やユーザー特有の情報情報にアクセスするうえでは限界があります。そこで、RAGの出番となります。RAGは、外部の知識ベースを取り入れることでLLMの能力を向上させることのできる、強力な技術です。これにより、AIシステムはLLMの流暢さと推論能力に、外部のデータベースから最新かつ事実の情報を組み合わせることができるようになります。

RAGの重要性は計り知れず、正確性と信頼性が最も重要となる、幅広いユースケースでその効果が発揮されます。例えばカスタマーサポートの事例においては、AIアシスタントにRAGを活用することにより、製品やサービス、ポリシーに関する、正確かつ最新の情報が提供することができ、顧客満足度の向上や、業務担当者の負担軽減にもつながります。また、教育分野においてもRAGの効果は大いに期待できます。例えば、教育用AIツールにRAGを活用することで、さまざまな分野における最新の知識情報が提供できるようになり、学習者はあらゆる専門領域において最前線に立ち続けることが可能になります。産業界や学術研究の分野においても、研究者がRAGを活用することにより、AIアシスタントを通じて膨大な科学文献やデータベースにアクセスできるようになり、発見やイノベーションの加速化にもつながります。RAGシステムは、コンテンツクリエイターに対しても大きな価値をもたらすことができます。RAGの活用を通じて、コンテンツクリエイターは事実に基づいた正確な情報を取得できるため、コンテンツの質と信頼性を向上させることが可能です。

さらに、RAGは、LLMの強みと外部の知識ベースによる検索機能が組み合わさっているため「AIの幻覚」（AIモデルがもっともらしいが、実際には誤った情報を生成する現象）の発生リスクを大幅に低減します。このため、RAGは、事実の正確性が必須となるような重要領域において、より信頼性のおける、適用しやすいシステムとなっています。

‍

最先端のベンチマーク機能

Flow Benchmark Toolsは、RAGシステムの性能に関する、比類のないインサイトを提供することができます。セマンティック検索（意味的検索）、クエリ生成、LLMに基づいた回答生成など、RAGパイプライン特有の複雑性に対応しているため、本ツールは絶妙なニュアンスも精確に捉えることもできる、包括的な評価を提供できるフレームワークとなっています。

Chatbot ArenaやArena-Hard、SEAL Leaderboards、ChatRAG-Benchなど、多くのLLMのベンチマークが存在しますが、Flow Benchmark Toolsは独自のアプローチを採用し、大きく差別化されています。ほとんどのベンチマークが一般的なクエリや事前処理された文書に焦点を当てているのに対し、当社のツールは文書特有の情報検索機能とエンドツーエンドの文書処理に重点を置いて設計されました。このアプローチは実社会における実際のシナリオをより反映しているほか、より製品とエンドユーザーに焦点を当てた形となっています。

文書の生データ処理から、情報検索やレスポンス生成に至るまでのパイプライン全体を評価することで、Flow Benchmark ToolsはRAGシステムの性能をより総合的かつ実用的に評価することが可能です。このような総合的アプローチは、「制御された環境下のみならず、企業や研究者が日常的に直面する、複雑で膨大な量のドキュメントがあるシナリオにおいても、優れた対応力をもつRAG技術を開発する」という、当社の目標とも一致しています。

本ツールの初期リリースでは英語のほか、日本語の性能に焦点を当てて開発しているため、非英語の言語のRAGシステムに新たなベンチマークとなれることも、当社が誇りに思える点です。英語以外の多言語への対応を重視しているのは、グローバルなオーディエンスにご活用いただけるAI技術を開発するという、当社のコミットメントを示すものでもあります。

この公開に先駆け、Recursiveは実際にFlow Benchmark Toolsを使用し、FindFlowを市場に出ているいくつかの主要なRAGシステムと比較し、ベンチマークの検証を行いました。詳細は後述の検証結果をご参照いただければと思いますが、本検証はRecursiveのアプローチがいかに強力で汎用性が高いかを示すとともに、AIコミュニティ全体にとっても貴重なデータとなってます。

‍

オープンソースの理念を実践

Flow Benchmark Toolsをオープンソース化することで、Recursiveは全世界におけるAI業界のコミュニティの皆さまと協力し、RAG技術のさらなる発展に取り組んでいけることを期待しています。Recursiveは、AIの可能性を最大限に引き出す鍵となるのは協業力と透明性であると確信しています。そのため、開発者や研究者、企業の皆さまが今後、当社の成果であるこのツールをどのように活用し、発展させていくのかを楽しみにしております。

Flow Benchmark Toolsのリリースは、ほんの始まりに過ぎません。Recursiveは今後、AI業界のコミュニティからのフィードバックも取り入れるなどして、他の言語も取り入れたり、ベンチマーク機能を拡張させたりするほか、手法なども改良しながら、本ツールを継続的に改善・拡充していく予定です。

AI業界におけるコミュニティの皆さまが、Flow Benchmark Toolsをどのように活用してイノベーションの推進やRAGシステムの改善を行い、最終的にいかに強力かつ正確で、信頼性の高いAIアプリケーションを創出したりするのか、大変楽しみにしています。AI技術の未来を共に切り拓くべく、皆さまからのフィードバックを心待ちにしています。

Flow Benchmark ToolsはGithubおよびPyPiで公開され、ご活用いただけます。

‍

最先端の性能を示すFindFlow

Recursiveがこれまで行ってきた、包括的なベンチマークの取り組みの結果をご紹介いたします。本ベンチマークの結果、RAGを用いた質問応答と、文書全体の理解という2つの重要な領域において、FindFlowが卓越した性能をもっていることが明らかになりました。これらのベンチマークは、FindFlowにあるSearchAIとAnalysisAIのパイプラインがもつ性能の特長を示しているのみならず、AIを活用した文書分析ツールの競争環境における、FindFlowの優位性も明らかにしています。

‍

ベンチマーク検証の手法

Recursiveが行ったベンチマークの検証は、徹底的かつ公平で、実社会における実際のシナリオを反映するように設計されています。データセットには、日本政府が公表しているあらゆる文書と、難易度の高い質問を使用しました。こちらに関しても、近い将来にオープンソース化し、AI研究に携わる、より多くの方々にお役立ていただけるようにしたいと考えています。評価において客観性と頑健性を最大限に確保すべく、Flow Benchmark ToolsではGPT-4、Claude 3、Geminiを含む最先端のLLMを活用する自動評価システムを採用しています。複数のモデルを採用するというこのマルチモデルアプローチにより、潜在的なバイアスを軽減し、包括的な性能評価を提供できるようになっています。評価システムは、0（最低）から10（最高）までの値を持つ平均意見評価を出力します。

RAGを用いた質問応答：SearchAIが競合製品の性能を上回る

RAGを用いた質問応答の領域において、Recursiveは、自社開発したFindFlowにおけるパイプライン「SearchAI」と、市場で好評を博している2つの質問応答パイプラインであるOpenAI AssistantとLangChainのデフォルトRAGパイプラインを比較しました。その結果は、次の通り、一目瞭然です。

FindFlow SearchAIは、最低０から最高１０までの評価段階の内、平均評価8.42を達成
それに対し、OpenAI Assistantは7.81を記録
さらに、LangChainのデフォルトRAGパイプラインは7.01のスコアを記録

これは、FindFlow SearchAIが性能の優位性観点から最も近い競合を0.61ポイント、3位のソリューションを1.41ポイント上回っていることを表し、FindFlow SearchAIがもっている優位性を明確に示しています。

‍

文書分析：AnalysisAIが競合製品の中でもトップに

文書全体の理解に関する性能領域においては、Recursiveが自社開発したFindFlow AnalysisAIをOpenAI AssistantおよびGeminiの長い文脈向けLLMであるGemini-1.5-Proと比較しました。その結果としてやはり明確になったのは、FindFlowの性能の優位性です。

FindFlow AnalysisAIは、平均評価8.90という驚異的な評価を記録
Gemini-1.5-Proの評価は7.22となり、2位に
次いでOpenAI Assistantは、6.29を記録

この性能カテゴリーにおいて、FindFlow AnalysisAIのパフォーマンスは、2位にランクしたパイプラインを1.68ポイント、3位のシステムに対しては大幅に2.61ポイントも上回っています。

Recursiveは今後とも技術の改良と強化を続けるのみならず、性能において高水準を維持することを目指してまいります。また、市場で最も先進的で信頼性が高く、効果的な文書分析ツールをユーザーに提供することに対するコミットメントを追求してまいります。