Reforzamiento del Razonamiento Multiturn en Agentes de LLM mediante Asignación de Crédito por Turno
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment
May 17, 2025
Autores: Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong
cs.AI
Resumen
Este artículo investiga enfoques para mejorar las capacidades de razonamiento de agentes basados en Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) utilizando Aprendizaje por Refuerzo (RL, por sus siglas en inglés). En particular, nos enfocamos en escenarios de uso de herramientas de múltiples turnos, los cuales pueden modelarse naturalmente como Procesos de Decisión de Markov (MDP, por sus siglas en inglés). Si bien los enfoques existentes suelen entrenar agentes LLM de múltiples turnos con estimación de ventaja a nivel de trayectoria en configuraciones de bandido, estos enfrentan dificultades con la asignación de crédito a nivel de turno en múltiples pasos de decisión, lo que limita su rendimiento en tareas de razonamiento de múltiples turnos. Para abordar esto, introducimos una estrategia de estimación de ventaja a nivel de turno más detallada, que permite una asignación de crédito más precisa en interacciones de agentes de múltiples turnos. Esta estrategia es general y puede incorporarse en diversos algoritmos de RL, como la Optimización de Preferencias Relativas de Grupo (GRPO, por sus siglas en inglés). Nuestra evaluación experimental en tareas de razonamiento de múltiples turnos y uso de herramientas basadas en búsqueda con implementaciones de GRPO destaca la efectividad del marco MDP y la asignación de crédito a nivel de turno para avanzar en las capacidades de razonamiento de agentes LLM en entornos complejos de toma de decisiones. Nuestro método logra un 100% de éxito en la ejecución de herramientas y un 50% de precisión en la coincidencia exacta de respuestas, superando significativamente a los métodos de referencia, los cuales no logran invocar herramientas y alcanzan solo un 20-30% de precisión en la coincidencia exacta.
English
This paper investigates approaches to enhance the reasoning capabilities of
Large Language Model (LLM) agents using Reinforcement Learning (RL).
Specifically, we focus on multi-turn tool-use scenarios, which can be naturally
modeled as Markov Decision Processes (MDPs). While existing approaches often
train multi-turn LLM agents with trajectory-level advantage estimation in
bandit settings, they struggle with turn-level credit assignment across
multiple decision steps, limiting their performance on multi-turn reasoning
tasks. To address this, we introduce a fine-grained turn-level advantage
estimation strategy to enable more precise credit assignment in multi-turn
agent interactions. The strategy is general and can be incorporated into
various RL algorithms such as Group Relative Preference Optimization (GRPO).
Our experimental evaluation on multi-turn reasoning and search-based tool-use
tasks with GRPO implementations highlights the effectiveness of the MDP
framework and the turn-level credit assignment in advancing the multi-turn
reasoning capabilities of LLM agents in complex decision-making settings. Our
method achieves 100% success in tool execution and 50% accuracy in exact answer
matching, significantly outperforming baselines, which fail to invoke tools and
achieve only 20-30% exact match accuracy.Summary
AI-Generated Summary