에이전트 추론 보상 모델 탐구
Exploring Reasoning Reward Model for Agents
January 29, 2026
저자: Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shuang Chen, Peng Pei, Xunliang Cai, Xiangyu Yue
cs.AI
초록
에이전트 강화 학습(Agentic RL)은 에이전트가 복잡한 추론과 도구 사용을 수행하도록 하는 데 주목할만한 성공을 거두었습니다. 그러나 대부분의 방법은 여전히 훈련을 위해 희소한 결과 기반 보상에 의존합니다. 이러한 피드백은 중간 추론 품질을 구분하지 못하여 최적이 아닌 훈련 결과를 초래합니다. 본 논문에서는 에이전트 추론 보상 모델(Agent-RRM)을 소개합니다. 이는 (1) 명시적 추론 경로, (2) 추론 결함을 강조하여 정제 지침을 제공하는 집중 비판, (3) 과정 성능을 평가하는 전체 점수를 포함하여 에이전트 트랙젝토리에 대한 구조화된 피드백을 생성하는 다면적 보상 모델입니다. 이러한 신호를 활용하여 우리는 Reagent-C(텍스트 기반 정제), Reagent-R(보상 기반 지도), Reagent-U(통합 피드백 통합)라는 세 가지 통합 전략을 체계적으로 조사합니다. 다양한 12개 벤치마크에 걸친 포괄적인 평가를 통해 Reagent-U가 GAIA에서 43.7%, WebWalkerQA에서 46.2%를 달성하며 상당한 성능 도약을 가져옴을 입증하여, 우리의 추론 보상 모델과 훈련 방식의 효과성을 검증했습니다. 향후 연구를 위해 코드, 모델 및 데이터셋을 모두 공개합니다.
English
Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured feedback for agentic trajectories, including (1) an explicit reasoning trace , (2) a focused critique that provides refinement guidance by highlighting reasoning flaws, and (3) an overall score that evaluates process performance. Leveraging these signals, we systematically investigate three integration strategies: Reagent-C (text-augmented refinement), Reagent-R (reward-augmented guidance), and Reagent-U (unified feedback integration). Extensive evaluations across 12 diverse benchmarks demonstrate that Reagent-U yields substantial performance leaps, achieving 43.7% on GAIA and 46.2% on WebWalkerQA, validating the effectiveness of our reasoning reward model and training schemes. Code, models, and datasets are all released to facilitate future research.