Rafforzare il Ragionamento Multi-Turn negli Agenti LLM tramite Assegnazione di Credito a Livello di Turno

Abstract

Questo articolo indaga approcci per potenziare le capacità di ragionamento degli agenti basati su Large Language Model (LLM) utilizzando il Reinforcement Learning (RL). In particolare, ci concentriamo su scenari di utilizzo di strumenti multi-turn, che possono essere naturalmente modellati come Processi di Decisione Markoviani (MDP). Mentre gli approcci esistenti spesso addestrano agenti LLM multi-turn con stime del vantaggio a livello di traiettoria in contesti di bandit, essi incontrano difficoltà nell'assegnazione del credito a livello di turno attraverso più passaggi decisionali, limitando le loro prestazioni nei compiti di ragionamento multi-turn. Per affrontare questo problema, introduciamo una strategia di stima del vantaggio a livello di turno più granulare, che consente un'assegnazione del credito più precisa nelle interazioni multi-turn degli agenti. La strategia è generale e può essere incorporata in vari algoritmi RL, come l'Optimization delle Preferenze Relative di Gruppo (GRPO). La nostra valutazione sperimentale su compiti di ragionamento multi-turn e di utilizzo di strumenti basati su ricerca con implementazioni GRPO evidenzia l'efficacia del framework MDP e dell'assegnazione del credito a livello di turno nel migliorare le capacità di ragionamento multi-turn degli agenti LLM in contesti decisionali complessi. Il nostro metodo raggiunge il 100% di successo nell'esecuzione degli strumenti e il 50% di accuratezza nella corrispondenza esatta delle risposte, superando significativamente i baseline, che non riescono a invocare gli strumenti e raggiungono solo un'accuratezza di corrispondenza esatta del 20-30%.

English

This paper investigates approaches to enhance the reasoning capabilities of Large Language Model (LLM) agents using Reinforcement Learning (RL). Specifically, we focus on multi-turn tool-use scenarios, which can be naturally modeled as Markov Decision Processes (MDPs). While existing approaches often train multi-turn LLM agents with trajectory-level advantage estimation in bandit settings, they struggle with turn-level credit assignment across multiple decision steps, limiting their performance on multi-turn reasoning tasks. To address this, we introduce a fine-grained turn-level advantage estimation strategy to enable more precise credit assignment in multi-turn agent interactions. The strategy is general and can be incorporated into various RL algorithms such as Group Relative Preference Optimization (GRPO). Our experimental evaluation on multi-turn reasoning and search-based tool-use tasks with GRPO implementations highlights the effectiveness of the MDP framework and the turn-level credit assignment in advancing the multi-turn reasoning capabilities of LLM agents in complex decision-making settings. Our method achieves 100% success in tool execution and 50% accuracy in exact answer matching, significantly outperforming baselines, which fail to invoke tools and achieve only 20-30% exact match accuracy.

Rafforzare il Ragionamento Multi-Turn negli Agenti LLM tramite Assegnazione di Credito a Livello di Turno

Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment

Abstract

Support