Renforcement du raisonnement multi-tours dans les agents LLM via l'attribution de crédit au niveau des tours

papers.abstract

Cet article explore des approches pour améliorer les capacités de raisonnement des agents basés sur des modèles de langage de grande taille (LLM) en utilisant l'apprentissage par renforcement (RL). Plus précisément, nous nous concentrons sur des scénarios d'utilisation d'outils en plusieurs étapes, qui peuvent être naturellement modélisés comme des processus de décision markoviens (MDP). Alors que les approches existantes entraînent souvent les agents LLM multi-étapes avec une estimation des avantages au niveau de la trajectoire dans des contextes de bandit, elles peinent à attribuer les crédits au niveau de chaque étape à travers plusieurs décisions, limitant ainsi leurs performances sur des tâches de raisonnement multi-étapes. Pour remédier à cela, nous introduisons une stratégie d'estimation des avantages fine au niveau de chaque étape, permettant une attribution de crédits plus précise dans les interactions multi-étapes des agents. Cette stratégie est générale et peut être intégrée dans divers algorithmes de RL, tels que l'optimisation des préférences relatives par groupe (GRPO). Notre évaluation expérimentale sur des tâches de raisonnement multi-étapes et d'utilisation d'outils basées sur la recherche, avec des implémentations de GRPO, met en évidence l'efficacité du cadre MDP et de l'attribution de crédits au niveau de chaque étape pour améliorer les capacités de raisonnement multi-étapes des agents LLM dans des contextes de prise de décision complexes. Notre méthode atteint un taux de réussite de 100 % dans l'exécution des outils et une précision de 50 % dans la correspondance exacte des réponses, surpassant significativement les méthodes de référence, qui échouent à invoquer les outils et n'atteignent qu'une précision de correspondance exacte de 20 à 30 %.

English

This paper investigates approaches to enhance the reasoning capabilities of Large Language Model (LLM) agents using Reinforcement Learning (RL). Specifically, we focus on multi-turn tool-use scenarios, which can be naturally modeled as Markov Decision Processes (MDPs). While existing approaches often train multi-turn LLM agents with trajectory-level advantage estimation in bandit settings, they struggle with turn-level credit assignment across multiple decision steps, limiting their performance on multi-turn reasoning tasks. To address this, we introduce a fine-grained turn-level advantage estimation strategy to enable more precise credit assignment in multi-turn agent interactions. The strategy is general and can be incorporated into various RL algorithms such as Group Relative Preference Optimization (GRPO). Our experimental evaluation on multi-turn reasoning and search-based tool-use tasks with GRPO implementations highlights the effectiveness of the MDP framework and the turn-level credit assignment in advancing the multi-turn reasoning capabilities of LLM agents in complex decision-making settings. Our method achieves 100% success in tool execution and 50% accuracy in exact answer matching, significantly outperforming baselines, which fail to invoke tools and achieve only 20-30% exact match accuracy.

Renforcement du raisonnement multi-tours dans les agents LLM via l'attribution de crédit au niveau des tours

Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment

papers.abstract

Support