ChatPaper.aiChatPaper

Turn-PPO: Estimativa de Vantagem por Turno com PPO para Melhoria do RL Multi-Turn em LLMs Agentes

Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

December 18, 2025
Autores: Junbo Li, Peng Zhou, Rui Meng, Meet P. Vadera, Lihong Li, Yang Li
cs.AI

Resumo

O aprendizado por reforço (RL) reemergiu como uma abordagem natural para treinar agentes de LLM interativos em ambientes do mundo real. No entanto, a aplicação direta do amplamente utilizado algoritmo Group Relative Policy Optimization (GRPO) a tarefas de múltiplos turnos expõe limitações notáveis, particularmente em cenários que exigem raciocínio de longo horizonte. Para enfrentar esses desafios, investigamos estratégias de estimativa de vantagem mais estáveis e eficazes, especialmente para configurações de múltiplos turnos. Primeiro, exploramos o Proximal Policy Optimization (PPO) como uma alternativa e descobrimos que ele é mais robusto que o GRPO. Para aprimorar ainda mais o PPO em cenários de múltiplos turnos, introduzimos o turn-PPO, uma variante que opera em uma formulação de MDP em nível de turno, em oposição ao MDP em nível de token comumente usado. Nossos resultados nos conjuntos de dados WebShop e Sokoban demonstram a eficácia do turn-PPO, tanto com quanto sem componentes de raciocínio longo.
English
Reinforcement learning (RL) has re-emerged as a natural approach for training interactive LLM agents in real-world environments. However, directly applying the widely used Group Relative Policy Optimization (GRPO) algorithm to multi-turn tasks exposes notable limitations, particularly in scenarios requiring long-horizon reasoning. To address these challenges, we investigate more stable and effective advantage estimation strategies, especially for multi-turn settings. We first explore Proximal Policy Optimization (PPO) as an alternative and find it to be more robust than GRPO. To further enhance PPO in multi-turn scenarios, we introduce turn-PPO, a variant that operates on a turn-level MDP formulation, as opposed to the commonly used token-level MDP. Our results on the WebShop and Sokoban datasets demonstrate the effectiveness of turn-PPO, both with and without long reasoning components.
PDF112February 27, 2026