ChatPaper.aiChatPaper

Exploration du modèle de récompense par raisonnement pour les agents

Exploring Reasoning Reward Model for Agents

January 29, 2026
papers.authors: Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shuang Chen, Peng Pei, Xunliang Cai, Xiangyu Yue
cs.AI

papers.abstract

L'apprentissage par renforcement agentique (Agentic RL) a obtenu un succès notable en permettant aux agents d'effectuer des raisonnements complexes et d'utiliser des outils. Cependant, la plupart des méthodes reposent encore sur des récompenses éparses basées sur les résultats pour l'entraînement. Ce retour d'information ne permet pas de différencier la qualité du raisonnement intermédiaire, conduisant à des résultats d'entraînement sous-optimaux. Dans cet article, nous présentons l'Agent Reasoning Reward Model (Agent-RRM), un modèle de récompense multidimensionnel qui produit un retour structuré pour les trajectoires agentiques, incluant (1) une trace de raisonnement explicite, (2) une critique ciblée qui fournit des conseils de raffinement en mettant en lumière les défauts de raisonnement, et (3) un score global qui évalue la performance du processus. En tirant parti de ces signaux, nous étudions systématiquement trois stratégies d'intégration : Reagent-C (raffinement par augmentation textuelle), Reagent-R (guidage par augmentation des récompenses) et Reagent-U (intégration unifiée du retour). Des évaluations approfondies sur 12 benchmarks diversifiés démontrent que Reagent-U permet des bonds substantiels de performance, atteignant 43,7 % sur GAIA et 46,2 % sur WebWalkerQA, validant ainsi l'efficacité de notre modèle de récompense de raisonnement et de nos schémas d'entraînement. Le code, les modèles et les jeux de données sont tous publiés pour faciliter les recherches futures.
English
Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured feedback for agentic trajectories, including (1) an explicit reasoning trace , (2) a focused critique that provides refinement guidance by highlighting reasoning flaws, and (3) an overall score that evaluates process performance. Leveraging these signals, we systematically investigate three integration strategies: Reagent-C (text-augmented refinement), Reagent-R (reward-augmented guidance), and Reagent-U (unified feedback integration). Extensive evaluations across 12 diverse benchmarks demonstrate that Reagent-U yields substantial performance leaps, achieving 43.7% on GAIA and 46.2% on WebWalkerQA, validating the effectiveness of our reasoning reward model and training schemes. Code, models, and datasets are all released to facilitate future research.
PDF183January 31, 2026