Het Versterken van Multi-Turn Redeneren in LLM-Agenten via Toewijzing van Credits per Beurt
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment
May 17, 2025
Auteurs: Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong
cs.AI
Samenvatting
Dit artikel onderzoekt benaderingen om de redeneervaardigheden van Large Language Model (LLM)-agenten te verbeteren met behulp van Reinforcement Learning (RL). Specifiek richten we ons op scenario's met meervoudig gebruik van tools, die natuurlijk gemodelleerd kunnen worden als Markov Decision Processes (MDP's). Hoewel bestaande benaderingen vaak meervoudige LLM-agenten trainen met trajectniveau voordeelschatting in banditsettings, hebben ze moeite met toewijzing van credits op turnniveau over meerdere beslissingsstappen, wat hun prestaties op meervoudige redeneertaken beperkt. Om dit aan te pakken, introduceren we een fijnmazige strategie voor voordeelschatting op turnniveau om nauwkeurigere toewijzing van credits mogelijk te maken in interacties met meervoudige agenten. De strategie is algemeen en kan worden geïntegreerd in verschillende RL-algoritmen, zoals Group Relative Preference Optimization (GRPO). Onze experimentele evaluatie van meervoudige redeneer- en zoekgebaseerde toolgebruiktaken met GRPO-implementaties benadrukt de effectiviteit van het MDP-framework en de toewijzing van credits op turnniveau bij het bevorderen van de meervoudige redeneervaardigheden van LLM-agenten in complexe beslissingssettings. Onze methode behaalt 100% succes in tooluitvoering en 50% nauwkeurigheid in exacte antwoordovereenkomst, wat aanzienlijk beter is dan de baseline-methoden, die er niet in slagen tools aan te roepen en slechts 20-30% nauwkeurigheid in exacte overeenkomst bereiken.
English
This paper investigates approaches to enhance the reasoning capabilities of
Large Language Model (LLM) agents using Reinforcement Learning (RL).
Specifically, we focus on multi-turn tool-use scenarios, which can be naturally
modeled as Markov Decision Processes (MDPs). While existing approaches often
train multi-turn LLM agents with trajectory-level advantage estimation in
bandit settings, they struggle with turn-level credit assignment across
multiple decision steps, limiting their performance on multi-turn reasoning
tasks. To address this, we introduce a fine-grained turn-level advantage
estimation strategy to enable more precise credit assignment in multi-turn
agent interactions. The strategy is general and can be incorporated into
various RL algorithms such as Group Relative Preference Optimization (GRPO).
Our experimental evaluation on multi-turn reasoning and search-based tool-use
tasks with GRPO implementations highlights the effectiveness of the MDP
framework and the turn-level credit assignment in advancing the multi-turn
reasoning capabilities of LLM agents in complex decision-making settings. Our
method achieves 100% success in tool execution and 50% accuracy in exact answer
matching, significantly outperforming baselines, which fail to invoke tools and
achieve only 20-30% exact match accuracy.