Renforcement du raisonnement multi-tours dans les agents LLM via l'attribution de crédit au niveau des tours
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment
May 17, 2025
Auteurs: Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong
cs.AI
Résumé
Cet article explore des approches pour améliorer les capacités de raisonnement des agents basés sur des modèles de langage de grande taille (LLM) en utilisant l'apprentissage par renforcement (RL). Plus précisément, nous nous concentrons sur des scénarios d'utilisation d'outils en plusieurs étapes, qui peuvent être naturellement modélisés comme des processus de décision markoviens (MDP). Alors que les approches existantes entraînent souvent les agents LLM multi-étapes avec une estimation des avantages au niveau de la trajectoire dans des contextes de bandit, elles peinent à attribuer les crédits au niveau de chaque étape à travers plusieurs décisions, limitant ainsi leurs performances sur des tâches de raisonnement multi-étapes. Pour remédier à cela, nous introduisons une stratégie d'estimation des avantages fine au niveau de chaque étape, permettant une attribution de crédits plus précise dans les interactions multi-étapes des agents. Cette stratégie est générale et peut être intégrée dans divers algorithmes de RL, tels que l'optimisation des préférences relatives par groupe (GRPO). Notre évaluation expérimentale sur des tâches de raisonnement multi-étapes et d'utilisation d'outils basées sur la recherche, avec des implémentations de GRPO, met en évidence l'efficacité du cadre MDP et de l'attribution de crédits au niveau de chaque étape pour améliorer les capacités de raisonnement multi-étapes des agents LLM dans des contextes de prise de décision complexes. Notre méthode atteint un taux de réussite de 100 % dans l'exécution des outils et une précision de 50 % dans la correspondance exacte des réponses, surpassant significativement les méthodes de référence, qui échouent à invoquer les outils et n'atteignent qu'une précision de correspondance exacte de 20 à 30 %.
English
This paper investigates approaches to enhance the reasoning capabilities of
Large Language Model (LLM) agents using Reinforcement Learning (RL).
Specifically, we focus on multi-turn tool-use scenarios, which can be naturally
modeled as Markov Decision Processes (MDPs). While existing approaches often
train multi-turn LLM agents with trajectory-level advantage estimation in
bandit settings, they struggle with turn-level credit assignment across
multiple decision steps, limiting their performance on multi-turn reasoning
tasks. To address this, we introduce a fine-grained turn-level advantage
estimation strategy to enable more precise credit assignment in multi-turn
agent interactions. The strategy is general and can be incorporated into
various RL algorithms such as Group Relative Preference Optimization (GRPO).
Our experimental evaluation on multi-turn reasoning and search-based tool-use
tasks with GRPO implementations highlights the effectiveness of the MDP
framework and the turn-level credit assignment in advancing the multi-turn
reasoning capabilities of LLM agents in complex decision-making settings. Our
method achieves 100% success in tool execution and 50% accuracy in exact answer
matching, significantly outperforming baselines, which fail to invoke tools and
achieve only 20-30% exact match accuracy.Summary
AI-Generated Summary