Erforschung von Belohnungsmodellen für das logische Denken von Agenten
Exploring Reasoning Reward Model for Agents
January 29, 2026
papers.authors: Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shuang Chen, Peng Pei, Xunliang Cai, Xiangyu Yue
cs.AI
papers.abstract
Agentisches Reinforcement Learning (Agentic RL) hat bemerkenswerte Erfolge dabei erzielt, Agenten zur Ausführung komplexer Denkprozesse und Werkzeugnutzung zu befähigen. Die meisten Methoden stützen sich jedoch nach wie vor auf spärliche, ergebnisbasierte Belohnungen für das Training. Eine solche Rückmeldung unterscheidet nicht zwischen der Qualität der Zwischenschritte in der Argumentation, was zu suboptimalen Trainingsergebnissen führt. In diesem Artikel stellen wir das Agent Reasoning Reward Model (Agent-RRM) vor, ein vielschichtiges Belohnungsmodell, das strukturierte Rückmeldungen für agentische Handlungsabläufe erzeugt. Diese umfassen (1) eine explizite Argumentationsspur, (2) eine fokussierte Kritik, die durch das Aufzeigen von Denkfehlern Anleitungen zur Verbesserung bietet, und (3) eine Gesamtbewertung, die die Leistung des Prozesses evaluiert. Unter Nutzung dieser Signale untersuchen wir systematisch drei Integrationsstrategien: Reagent-C (textunterstützte Verfeinerung), Reagent-R (belohnungsunterstützte Steuerung) und Reagent-U (vereinheitlichte Feedback-Integration). Umfangreiche Auswertungen über 12 verschiedene Benchmarks hinweg zeigen, dass Reagent-U erhebliche Leistungssprünge bewirkt und Werte von 43,7 % auf GAIA und 46,2 % auf WebWalkerQA erreicht, was die Wirksamkeit unseres Reasoning-Belohnungsmodells und der Trainingsschemata bestätigt. Code, Modelle und Datensätze werden vollständig veröffentlicht, um zukünftige Forschung zu unterstützen.
English
Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured feedback for agentic trajectories, including (1) an explicit reasoning trace , (2) a focused critique that provides refinement guidance by highlighting reasoning flaws, and (3) an overall score that evaluates process performance. Leveraging these signals, we systematically investigate three integration strategies: Reagent-C (text-augmented refinement), Reagent-R (reward-augmented guidance), and Reagent-U (unified feedback integration). Extensive evaluations across 12 diverse benchmarks demonstrate that Reagent-U yields substantial performance leaps, achieving 43.7% on GAIA and 46.2% on WebWalkerQA, validating the effectiveness of our reasoning reward model and training schemes. Code, models, and datasets are all released to facilitate future research.