ChatPaper.aiChatPaper

FREESON: コーパス横断型MCTSによる検索器不要の検索拡張推論

FREESON: Retriever-Free Retrieval-Augmented Reasoning via Corpus-Traversing MCTS

May 22, 2025
著者: Chaeeun Kim, Seungone Kim
cs.AI

要旨

大規模推論モデル(LRM)は、多段階推論や適切なタイミングでの検索エンジンの呼び出しにおいて顕著な能力を発揮しています。しかし、既存の検索拡張推論アプローチは別個の検索モデルに依存しており、LRMの役割を検索のタイミングとクエリの決定に限定しています。この分離は、ハードウェアと運用コストを増加させるだけでなく、表現ボトルネック(検索器の埋め込み空間が生成器の要件を満たすのに十分でない現象)による検索プロセスでのエラーを引き起こします。この問題に対処するため、我々はシーケンス間マッチングからコーパス内の回答を含むパスの特定へと視点を転換し、FREESON(Retriever-FREE Retrieval-Augmented ReaSONing)という新しいフレームワークを提案します。このフレームワークは、LRMが生成器と検索器の両方の役割を果たすことで、関連知識を自ら検索できるようにします。これを実現するために、検索タスクに特化したMCTSアルゴリズムの変種であるCT-MCTS(Corpus-Traversing Monte Carlo Tree Search)を導入します。このアルゴリズムでは、LRMがコーパス内を回答を含む領域に向かって探索します。単一ホップおよび多段階ホップの質問を含む5つのオープンドメインQAベンチマークでの結果は、FREESONが別個の検索器を持つ4つの多段階推論モデルに対して、EMとF1で平均14.4%の改善を達成し、最も強力なベースラインと同等の性能を示し、PopQAと2WikiMultihopQAではそれぞれ3%と2%上回ることを示しています。
English
Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in multi-step reasoning and calling search engines at appropriate steps. However, existing retrieval-augmented reasoning approaches rely on separate retrieval models, limiting the LRM's role in retrieval to deciding when to retrieve and how to query. This separation not only increases hardware and operational costs but also leads to errors in the retrieval process due to the representation bottleneck, a phenomenon where the retriever's embedding space is not expressive enough to meet the generator's requirements. To address this, we shift our perspective from sequence-to-sequence matching to locating the answer-containing paths within the corpus, and propose a novel framework called FREESON (Retriever-FREE Retrieval-Augmented ReaSONing). This framework enables LRMs to retrieve relevant knowledge on their own by acting as both a generator and retriever. To achieve this, we introduce a variant of the MCTS algorithm specialized for the retrieval task, which we call CT-MCTS (Corpus-Traversing Monte Carlo Tree Search). In this algorithm, LRMs traverse through the corpus toward answer-containing regions. Our results on five open-domain QA benchmarks, including single-hop and multi-hop questions, show that FREESON achieves an average improvement of 14.4% in EM and F1 over four multi-step reasoning models with a separate retriever, and it also performs comparably to the strongest baseline, surpassing it by 3% on PopQA and 2WikiMultihopQA.

Summary

AI-Generated Summary

PDF22May 26, 2025