ChatPaper.aiChatPaper

Search-R2: アクターとリファイナーの連携による検索統合型推論の高度化

Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration

February 3, 2026
著者: Bowei He, Minda Hu, Zenan Xu, Hongru Wang, Licheng Zong, Yankai Chen, Chen Ma, Xue Liu, Pluto Zhou, Irwin King
cs.AI

要旨

検索統合型推論は、言語エージェントが外部ソースを能動的にクエリすることで、静的なパラメトリック知識を超えることを可能にする。しかし、強化学習によるこれらのエージェントの訓練は、マルチスケールの信用割り当て問題によって妨げられている。既存手法は通常、高品質な推論と偶発的な推測を区別できない疎な軌道レベルの報酬に依存しており、冗長または誤解を招く検索行動を引き起こす。この問題に対処するため、我々はSearch-R2を提案する。これは、訓練中に両コンポーネントが共同で最適化される、ターゲットを絞った介入による推論の強化を図る新しいActor-Refiner協調フレームワークである。本アプローチでは、生成プロセスを、初期の推論軌道を生成するActorと、「切断-再生成」メカニズムを通じて選択的に欠陥ステップを診断・修復するMeta-Refinerに分解する。きめ細かい監督を提供するため、結果の正しさと、検索された証拠の情報密度を定量化する密なプロセス報酬を結合したハイブリッド報酬設計を導入する。理論的には、Actor-Refinerの相互作用を平滑化された混合政策として定式化し、選択的修正が強力なベースラインを上回る厳密な性能向上をもたらすことを証明する。様々な一般知識およびマルチホップQAデータセットを用いた広範な実験により、Search-R2がモデル規模を問わず強力なRAGおよびRLベースのベースラインを一貫して上回り、最小限のオーバーヘッドで優れた推論精度を達成することを実証する。
English
Search-integrated reasoning enables language agents to transcend static parametric knowledge by actively querying external sources. However, training these agents via reinforcement learning is hindered by the multi-scale credit assignment problem: existing methods typically rely on sparse, trajectory-level rewards that fail to distinguish between high-quality reasoning and fortuitous guesses, leading to redundant or misleading search behaviors. To address this, we propose Search-R2, a novel Actor-Refiner collaboration framework that enhances reasoning through targeted intervention, with both components jointly optimized during training. Our approach decomposes the generation process into an Actor, which produces initial reasoning trajectories, and a Meta-Refiner, which selectively diagnoses and repairs flawed steps via a 'cut-and-regenerate' mechanism. To provide fine-grained supervision, we introduce a hybrid reward design that couples outcome correctness with a dense process reward quantifying the information density of retrieved evidence. Theoretically, we formalize the Actor-Refiner interaction as a smoothed mixture policy, proving that selective correction yields strict performance gains over strong baselines. Extensive experiments across various general and multi-hop QA datasets demonstrate that Search-R2 consistently outperforms strong RAG and RL-based baselines across model scales, achieving superior reasoning accuracy with minimal overhead.
PDF51February 5, 2026