Exploración del Modelo de Recompensa de Razonamiento para Agentes
Exploring Reasoning Reward Model for Agents
January 29, 2026
Autores: Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shuang Chen, Peng Pei, Xunliang Cai, Xiangyu Yue
cs.AI
Resumen
El Aprendizaje por Refuerzo Agéntico (Agentic RL) ha logrado un éxito notable al permitir que los agentes realicen razonamientos complejos y uso de herramientas. Sin embargo, la mayoría de los métodos aún dependen de recompensas dispersas basadas en resultados para el entrenamiento. Esta retroalimentación no logra diferenciar la calidad del razonamiento intermedio, lo que conduce a resultados de entrenamiento subóptimos. En este artículo, presentamos el Modelo de Recompensa de Razonamiento del Agente (Agent-RRM), un modelo de recompensa multifacético que genera retroalimentación estructurada para trayectorias agénticas, incluyendo: (1) una traza de razonamiento explícita, (2) una crítica focalizada que proporciona orientación para refinamiento resaltando fallos en el razonamiento, y (3) una puntuación global que evalúa el desempeño del proceso. Aprovechando estas señales, investigamos sistemáticamente tres estrategias de integración: Reagent-C (refinamiento aumentado por texto), Reagent-R (guía aumentada por recompensa) y Reagent-U (integración unificada de retroalimentación). Evaluaciones exhaustivas en 12 benchmarks diversos demuestran que Reagent-U produce mejoras sustanciales en el rendimiento, alcanzando un 43.7% en GAIA y un 46.2% en WebWalkerQA, validando la efectividad de nuestro modelo de recompensa de razonamiento y esquemas de entrenamiento. El código, los modelos y los conjuntos de datos se han liberado para facilitar futuras investigaciones.
English
Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured feedback for agentic trajectories, including (1) an explicit reasoning trace , (2) a focused critique that provides refinement guidance by highlighting reasoning flaws, and (3) an overall score that evaluates process performance. Leveraging these signals, we systematically investigate three integration strategies: Reagent-C (text-augmented refinement), Reagent-R (reward-augmented guidance), and Reagent-U (unified feedback integration). Extensive evaluations across 12 diverse benchmarks demonstrate that Reagent-U yields substantial performance leaps, achieving 43.7% on GAIA and 46.2% on WebWalkerQA, validating the effectiveness of our reasoning reward model and training schemes. Code, models, and datasets are all released to facilitate future research.