Rafforzare il Ragionamento Multi-Turn negli Agenti LLM tramite Assegnazione di Credito a Livello di Turno
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment
May 17, 2025
Autori: Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong
cs.AI
Abstract
Questo articolo indaga approcci per potenziare le capacità di ragionamento degli agenti basati su Large Language Model (LLM) utilizzando il Reinforcement Learning (RL). In particolare, ci concentriamo su scenari di utilizzo di strumenti multi-turn, che possono essere naturalmente modellati come Processi di Decisione Markoviani (MDP). Mentre gli approcci esistenti spesso addestrano agenti LLM multi-turn con stime del vantaggio a livello di traiettoria in contesti di bandit, essi incontrano difficoltà nell'assegnazione del credito a livello di turno attraverso più passaggi decisionali, limitando le loro prestazioni nei compiti di ragionamento multi-turn. Per affrontare questo problema, introduciamo una strategia di stima del vantaggio a livello di turno più granulare, che consente un'assegnazione del credito più precisa nelle interazioni multi-turn degli agenti. La strategia è generale e può essere incorporata in vari algoritmi RL, come l'Optimization delle Preferenze Relative di Gruppo (GRPO). La nostra valutazione sperimentale su compiti di ragionamento multi-turn e di utilizzo di strumenti basati su ricerca con implementazioni GRPO evidenzia l'efficacia del framework MDP e dell'assegnazione del credito a livello di turno nel migliorare le capacità di ragionamento multi-turn degli agenti LLM in contesti decisionali complessi. Il nostro metodo raggiunge il 100% di successo nell'esecuzione degli strumenti e il 50% di accuratezza nella corrispondenza esatta delle risposte, superando significativamente i baseline, che non riescono a invocare gli strumenti e raggiungono solo un'accuratezza di corrispondenza esatta del 20-30%.
English
This paper investigates approaches to enhance the reasoning capabilities of
Large Language Model (LLM) agents using Reinforcement Learning (RL).
Specifically, we focus on multi-turn tool-use scenarios, which can be naturally
modeled as Markov Decision Processes (MDPs). While existing approaches often
train multi-turn LLM agents with trajectory-level advantage estimation in
bandit settings, they struggle with turn-level credit assignment across
multiple decision steps, limiting their performance on multi-turn reasoning
tasks. To address this, we introduce a fine-grained turn-level advantage
estimation strategy to enable more precise credit assignment in multi-turn
agent interactions. The strategy is general and can be incorporated into
various RL algorithms such as Group Relative Preference Optimization (GRPO).
Our experimental evaluation on multi-turn reasoning and search-based tool-use
tasks with GRPO implementations highlights the effectiveness of the MDP
framework and the turn-level credit assignment in advancing the multi-turn
reasoning capabilities of LLM agents in complex decision-making settings. Our
method achieves 100% success in tool execution and 50% accuracy in exact answer
matching, significantly outperforming baselines, which fail to invoke tools and
achieve only 20-30% exact match accuracy.