ChatPaper.aiChatPaper

エージェントのための推論報酬モデルの探求

Exploring Reasoning Reward Model for Agents

January 29, 2026
著者: Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shuang Chen, Peng Pei, Xunliang Cai, Xiangyu Yue
cs.AI

要旨

エージェンシック強化学習(Agentic RL)は、エージェントに複雑な推論とツール利用を可能とする点で顕著な成功を収めている。しかし、多くの手法は依然として訓練に疎な結果ベースの報酬に依存している。このようなフィードバックは中間推論の質を区別できず、最適とは言えない訓練結果をもたらす。本論文では、エージェントの軌跡に対して構造化されたフィードバックを生成する多面的な報酬モデル、**Agent Reasoning Reward Model (Agent-RRM)** を提案する。これには、(1) 明示的な推論トレース、(2) 推論の欠陥を指摘し改善指針を与える焦点化された批評、(3) プロセスの性能を評価する総合スコアが含まれる。これらの信号を活用し、我々は三つの統合戦略を体系的に調査する:Reagent-C(テキスト拡張型改良)、Reagent-R(報酬拡張型指導)、Reagent-U(統合フィードバック統合)である。12の多様なベンチマークによる広範な評価により、Reagent-Uが大幅な性能向上をもたらし、GAIAで43.7%、WebWalkerQAで46.2%を達成し、我々の推論報酬モデルと訓練手法の有効性が実証された。将来の研究の発展のために、コード、モデル、データセットを全て公開する。
English
Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured feedback for agentic trajectories, including (1) an explicit reasoning trace , (2) a focused critique that provides refinement guidance by highlighting reasoning flaws, and (3) an overall score that evaluates process performance. Leveraging these signals, we systematically investigate three integration strategies: Reagent-C (text-augmented refinement), Reagent-R (reward-augmented guidance), and Reagent-U (unified feedback integration). Extensive evaluations across 12 diverse benchmarks demonstrate that Reagent-U yields substantial performance leaps, achieving 43.7% on GAIA and 46.2% on WebWalkerQA, validating the effectiveness of our reasoning reward model and training schemes. Code, models, and datasets are all released to facilitate future research.
PDF183January 31, 2026