Het Verkennen van Beloningsmodellen voor Redeneren bij Agents

Samenvatting

Agentic Reinforcement Learning (Agentic RL) heeft aanzienlijk succes geboekt bij het in staat stellen van agents om complexe redeneringen en toolgebruik uit te voeren. De meeste methoden zijn echter nog steeds afhankelijk van sporadische, op uitkomsten gebaseerde beloningen voor training. Deze feedback maakt geen onderscheid in de kwaliteit van tussenliggende redeneerstappen, wat leidt tot suboptimale trainingsresultaten. In dit artikel introduceren we het Agent Reasoning Reward Model (Agent-RRM), een veelzijdig beloningsmodel dat gestructureerde feedback produceert voor agentische trajecten, waaronder (1) een expliciet redeneerspoor, (2) een gefocuste kritiek die verfijningsrichtlijnen biedt door redeneerfouten te benadrukken, en (3) een algemene score die de prestaties van het proces evalueert. Gebruikmakend van deze signalen onderzoeken we systematisch drie integratiestrategieën: Reagent-C (tekst-aangevulde verfijning), Reagent-R (beloning-aangevulde begeleiding) en Reagent-U (geïntegreerde feedback). Uitgebreide evaluaties op 12 diverse benchmarks tonen aan dat Reagent-U substantiële prestatieverbeteringen oplevert, met scores van 43,7% op GAIA en 46,2% op WebWalkerQA, wat de effectiviteit van ons redeneerbeloningsmodel en trainingsschema's bevestigt. Code, modellen en datasets zijn vrijgegeven om toekomstig onderzoek te faciliteren.

English

Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured feedback for agentic trajectories, including (1) an explicit reasoning trace , (2) a focused critique that provides refinement guidance by highlighting reasoning flaws, and (3) an overall score that evaluates process performance. Leveraging these signals, we systematically investigate three integration strategies: Reagent-C (text-augmented refinement), Reagent-R (reward-augmented guidance), and Reagent-U (unified feedback integration). Extensive evaluations across 12 diverse benchmarks demonstrate that Reagent-U yields substantial performance leaps, achieving 43.7% on GAIA and 46.2% on WebWalkerQA, validating the effectiveness of our reasoning reward model and training schemes. Code, models, and datasets are all released to facilitate future research.

Het Verkennen van Beloningsmodellen voor Redeneren bij Agents

Exploring Reasoning Reward Model for Agents

Samenvatting

Support