Explorando o Modelo de Recompensa de Raciocínio para Agentes

Resumo

O Aprendizado por Reforço Agêntico (Agentic RL) tem alcançado sucesso notável em capacitar agentes a realizar raciocínio complexo e uso de ferramentas. No entanto, a maioria dos métodos ainda depende de recompensas esparsas baseadas em resultados para o treinamento. Esse feedback não consegue diferenciar a qualidade do raciocínio intermediário, levando a resultados de treinamento subótimos. Neste artigo, introduzimos o Modelo de Recompensa de Raciocínio do Agente (Agent-RRM), um modelo de recompensa multifacetado que produz feedback estruturado para trajetórias agênticas, incluindo (1) um traço de raciocínio explícito, (2) uma crítica focada que fornece orientação de refinamento ao destacar falhas de raciocínio, e (3) uma pontuação geral que avalia o desempenho do processo. Aproveitando esses sinais, investigamos sistematicamente três estratégias de integração: Reagent-C (refinamento com aumento de texto), Reagent-R (orientação com aumento de recompensa) e Reagent-U (integração unificada de feedback). Avaliações extensas em 12 benchmarks diversos demonstram que o Reagent-U produz saltos substanciais de desempenho, alcançando 43,7% no GAIA e 46,2% no WebWalkerQA, validando a eficácia de nosso modelo de recompensa de raciocínio e esquemas de treinamento. Códigos, modelos e conjuntos de dados são todos liberados para facilitar pesquisas futuras.

English

Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured feedback for agentic trajectories, including (1) an explicit reasoning trace , (2) a focused critique that provides refinement guidance by highlighting reasoning flaws, and (3) an overall score that evaluates process performance. Leveraging these signals, we systematically investigate three integration strategies: Reagent-C (text-augmented refinement), Reagent-R (reward-augmented guidance), and Reagent-U (unified feedback integration). Extensive evaluations across 12 diverse benchmarks demonstrate that Reagent-U yields substantial performance leaps, achieving 43.7% on GAIA and 46.2% on WebWalkerQA, validating the effectiveness of our reasoning reward model and training schemes. Code, models, and datasets are all released to facilitate future research.

Explorando o Modelo de Recompensa de Raciocínio para Agentes

Exploring Reasoning Reward Model for Agents

Resumo

Support