Reforçando o Raciocínio Multi-Turn em Agentes de LLM por meio de Atribuição de Crédito por Turno
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment
May 17, 2025
Autores: Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong
cs.AI
Resumo
Este artigo investiga abordagens para aprimorar as capacidades de raciocínio de agentes de Modelos de Linguagem de Grande Escala (LLM) utilizando Aprendizado por Reforço (RL). Especificamente, focamos em cenários de uso de ferramentas em múltiplos turnos, que podem ser naturalmente modelados como Processos de Decisão de Markov (MDPs). Embora as abordagens existentes frequentemente treinem agentes LLM de múltiplos turnos com estimativa de vantagem em nível de trajetória em configurações de bandit, elas enfrentam dificuldades com a atribuição de crédito em nível de turno ao longo de múltiplos passos de decisão, limitando seu desempenho em tarefas de raciocínio de múltiplos turnos. Para resolver isso, introduzimos uma estratégia de estimativa de vantagem em nível de turno mais refinada, permitindo uma atribuição de crédito mais precisa nas interações de agentes em múltiplos turnos. A estratégia é geral e pode ser incorporada em vários algoritmos de RL, como a Otimização de Preferência Relativa de Grupo (GRPO). Nossa avaliação experimental em tarefas de raciocínio de múltiplos turnos e uso de ferramentas baseadas em busca com implementações de GRPO destaca a eficácia da estrutura MDP e da atribuição de crédito em nível de turno no avanço das capacidades de raciocínio de múltiplos turnos de agentes LLM em cenários complexos de tomada de decisão. Nosso método alcança 100% de sucesso na execução de ferramentas e 50% de precisão na correspondência exata de respostas, superando significativamente as linhas de base, que falham em invocar ferramentas e alcançam apenas 20-30% de precisão na correspondência exata.
English
This paper investigates approaches to enhance the reasoning capabilities of
Large Language Model (LLM) agents using Reinforcement Learning (RL).
Specifically, we focus on multi-turn tool-use scenarios, which can be naturally
modeled as Markov Decision Processes (MDPs). While existing approaches often
train multi-turn LLM agents with trajectory-level advantage estimation in
bandit settings, they struggle with turn-level credit assignment across
multiple decision steps, limiting their performance on multi-turn reasoning
tasks. To address this, we introduce a fine-grained turn-level advantage
estimation strategy to enable more precise credit assignment in multi-turn
agent interactions. The strategy is general and can be incorporated into
various RL algorithms such as Group Relative Preference Optimization (GRPO).
Our experimental evaluation on multi-turn reasoning and search-based tool-use
tasks with GRPO implementations highlights the effectiveness of the MDP
framework and the turn-level credit assignment in advancing the multi-turn
reasoning capabilities of LLM agents in complex decision-making settings. Our
method achieves 100% success in tool execution and 50% accuracy in exact answer
matching, significantly outperforming baselines, which fail to invoke tools and
achieve only 20-30% exact match accuracy.