Verstärkung des Mehrschrittigen Denkens in LLM-Agenten durch schrittweise Kreditzuweisung
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment
May 17, 2025
Autoren: Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong
cs.AI
Zusammenfassung
Diese Arbeit untersucht Ansätze zur Verbesserung der Fähigkeiten von Large Language Model (LLM)-Agenten im Bereich des logischen Denkens durch den Einsatz von Reinforcement Learning (RL). Insbesondere konzentrieren wir uns auf Szenarien mit mehrstufiger Werkzeugnutzung, die sich natürlich als Markov-Entscheidungsprozesse (MDPs) modellieren lassen. Während bestehende Ansätze oft mehrstufige LLM-Agenten mit trajektorienbasierter Vorteilsschätzung in Bandit-Settings trainieren, haben sie Schwierigkeiten mit der stufenweisen Zuweisung von Krediten über mehrere Entscheidungsschritte hinweg, was ihre Leistung bei mehrstufigen Denkaufgaben einschränkt. Um dies zu beheben, führen wir eine feingranulare, stufenweise Vorteilsschätzung ein, die eine präzisere Kreditzuweisung in mehrstufigen Agenteninteraktionen ermöglicht. Diese Strategie ist allgemein anwendbar und kann in verschiedene RL-Algorithmen wie Group Relative Preference Optimization (GRPO) integriert werden. Unsere experimentelle Auswertung von mehrstufigen Denkaufgaben und suchbasierten Werkzeugnutzungsaufgaben mit GRPO-Implementierungen unterstreicht die Wirksamkeit des MDP-Frameworks und der stufenweisen Kreditzuweisung bei der Weiterentwicklung der mehrstufigen Denkfähigkeiten von LLM-Agenten in komplexen Entscheidungssituationen. Unsere Methode erreicht eine 100%ige Erfolgsquote bei der Werkzeugausführung und eine 50%ige Genauigkeit bei der exakten Antwortübereinstimmung, was die Baselines deutlich übertrifft, die es nicht schaffen, Werkzeuge aufzurufen und nur eine 20-30%ige exakte Übereinstimmungsgenauigkeit erreichen.
English
This paper investigates approaches to enhance the reasoning capabilities of
Large Language Model (LLM) agents using Reinforcement Learning (RL).
Specifically, we focus on multi-turn tool-use scenarios, which can be naturally
modeled as Markov Decision Processes (MDPs). While existing approaches often
train multi-turn LLM agents with trajectory-level advantage estimation in
bandit settings, they struggle with turn-level credit assignment across
multiple decision steps, limiting their performance on multi-turn reasoning
tasks. To address this, we introduce a fine-grained turn-level advantage
estimation strategy to enable more precise credit assignment in multi-turn
agent interactions. The strategy is general and can be incorporated into
various RL algorithms such as Group Relative Preference Optimization (GRPO).
Our experimental evaluation on multi-turn reasoning and search-based tool-use
tasks with GRPO implementations highlights the effectiveness of the MDP
framework and the turn-level credit assignment in advancing the multi-turn
reasoning capabilities of LLM agents in complex decision-making settings. Our
method achieves 100% success in tool execution and 50% accuracy in exact answer
matching, significantly outperforming baselines, which fail to invoke tools and
achieve only 20-30% exact match accuracy.Summary
AI-Generated Summary