ChatPaper.aiChatPaper

Het Versterken van Multi-Turn Redeneren in LLM-Agenten via Toewijzing van Credits per Beurt

Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment

May 17, 2025
Auteurs: Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong
cs.AI

Samenvatting

Dit artikel onderzoekt benaderingen om de redeneervaardigheden van Large Language Model (LLM)-agenten te verbeteren met behulp van Reinforcement Learning (RL). Specifiek richten we ons op scenario's met meervoudig gebruik van tools, die natuurlijk gemodelleerd kunnen worden als Markov Decision Processes (MDP's). Hoewel bestaande benaderingen vaak meervoudige LLM-agenten trainen met trajectniveau voordeelschatting in banditsettings, hebben ze moeite met toewijzing van credits op turnniveau over meerdere beslissingsstappen, wat hun prestaties op meervoudige redeneertaken beperkt. Om dit aan te pakken, introduceren we een fijnmazige strategie voor voordeelschatting op turnniveau om nauwkeurigere toewijzing van credits mogelijk te maken in interacties met meervoudige agenten. De strategie is algemeen en kan worden geïntegreerd in verschillende RL-algoritmen, zoals Group Relative Preference Optimization (GRPO). Onze experimentele evaluatie van meervoudige redeneer- en zoekgebaseerde toolgebruiktaken met GRPO-implementaties benadrukt de effectiviteit van het MDP-framework en de toewijzing van credits op turnniveau bij het bevorderen van de meervoudige redeneervaardigheden van LLM-agenten in complexe beslissingssettings. Onze methode behaalt 100% succes in tooluitvoering en 50% nauwkeurigheid in exacte antwoordovereenkomst, wat aanzienlijk beter is dan de baseline-methoden, die er niet in slagen tools aan te roepen en slechts 20-30% nauwkeurigheid in exacte overeenkomst bereiken.
English
This paper investigates approaches to enhance the reasoning capabilities of Large Language Model (LLM) agents using Reinforcement Learning (RL). Specifically, we focus on multi-turn tool-use scenarios, which can be naturally modeled as Markov Decision Processes (MDPs). While existing approaches often train multi-turn LLM agents with trajectory-level advantage estimation in bandit settings, they struggle with turn-level credit assignment across multiple decision steps, limiting their performance on multi-turn reasoning tasks. To address this, we introduce a fine-grained turn-level advantage estimation strategy to enable more precise credit assignment in multi-turn agent interactions. The strategy is general and can be incorporated into various RL algorithms such as Group Relative Preference Optimization (GRPO). Our experimental evaluation on multi-turn reasoning and search-based tool-use tasks with GRPO implementations highlights the effectiveness of the MDP framework and the turn-level credit assignment in advancing the multi-turn reasoning capabilities of LLM agents in complex decision-making settings. Our method achieves 100% success in tool execution and 50% accuracy in exact answer matching, significantly outperforming baselines, which fail to invoke tools and achieve only 20-30% exact match accuracy.
PDF142May 29, 2025