Esplorazione del Modello di Ricompensa per il Ragionamento negli Agenti

Abstract

L’Apprendimento per Rinforzo Agente (Agentic RL) ha ottenuto successi notevoli nel consentire agli agenti di eseguire ragionamenti complessi e l'utilizzo di strumenti. Tuttavia, la maggior parte dei metodi si basa ancora su ricompense sparse basate sui risultati per l'addestramento. Tale feedback non riesce a differenziare la qualità del ragionamento intermedio, portando a risultati di addestramento subottimali. In questo articolo, introduciamo l'Agent Reasoning Reward Model (Agent-RRM), un modello di ricompensa multi-sfaccettato che fornisce un feedback strutturato per le traiettorie agente, includendo (1) una traccia esplicita del ragionamento, (2) una critica focalizzata che fornisce una guida al perfezionamento evidenziando le imperfezioni nel ragionamento, e (3) un punteggio complessivo che valuta le prestazioni del processo. Sfruttando questi segnali, investigiamo sistematicamente tre strategie di integrazione: Reagent-C (perfezionamento arricchito con testo), Reagent-R (guida arricchita con ricompensa) e Reagent-U (integrazione unificata del feedback). Valutazioni estese su 12 benchmark diversi dimostrano che Reagent-U produce miglioramenti sostanziali nelle prestazioni, raggiungendo il 43,7% su GAIA e il 46,2% su WebWalkerQA, convalidando l'efficacia del nostro modello di ricompensa per il ragionamento e degli schemi di addestramento. Codice, modelli e dataset sono tutti rilasciati per facilitare la ricerca futura.

English

Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured feedback for agentic trajectories, including (1) an explicit reasoning trace , (2) a focused critique that provides refinement guidance by highlighting reasoning flaws, and (3) an overall score that evaluates process performance. Leveraging these signals, we systematically investigate three integration strategies: Reagent-C (text-augmented refinement), Reagent-R (reward-augmented guidance), and Reagent-U (unified feedback integration). Extensive evaluations across 12 diverse benchmarks demonstrate that Reagent-U yields substantial performance leaps, achieving 43.7% on GAIA and 46.2% on WebWalkerQA, validating the effectiveness of our reasoning reward model and training schemes. Code, models, and datasets are all released to facilitate future research.

Esplorazione del Modello di Ricompensa per il Ragionamento negli Agenti

Exploring Reasoning Reward Model for Agents

Abstract

Support