Turn-PPO: Estimación de Ventaja a Nivel de Turno con PPO para una RL Multiturno Mejorada en LLMs Agentes

Resumen

El aprendizaje por refuerzo (RL) ha reaparecido como un enfoque natural para entrenar agentes de LLM interactivos en entornos del mundo real. Sin embargo, la aplicación directa del ampliamente utilizado algoritmo de Optimización de Políticas de Grupo Relativo (GRPO) a tareas de múltiples turnos expone limitaciones notables, particularmente en escenarios que requieren razonamiento de largo horizonte. Para abordar estos desafíos, investigamos estrategias de estimación de ventaja más estables y efectivas, especialmente para configuraciones de múltiples turnos. Primero exploramos la Optimización de Políticas Proximales (PPO) como una alternativa y encontramos que es más robusta que GRPO. Para mejorar aún más el PPO en escenarios de múltiples turnos, presentamos turn-PPO, una variante que opera en una formulación MDP a nivel de turno, en contraposición al MDP a nivel de token comúnmente utilizado. Nuestros resultados en los conjuntos de datos WebShop y Sokoban demuestran la efectividad de turn-PPO, tanto con como sin componentes de razonamiento largo.

English

Reinforcement learning (RL) has re-emerged as a natural approach for training interactive LLM agents in real-world environments. However, directly applying the widely used Group Relative Policy Optimization (GRPO) algorithm to multi-turn tasks exposes notable limitations, particularly in scenarios requiring long-horizon reasoning. To address these challenges, we investigate more stable and effective advantage estimation strategies, especially for multi-turn settings. We first explore Proximal Policy Optimization (PPO) as an alternative and find it to be more robust than GRPO. To further enhance PPO in multi-turn scenarios, we introduce turn-PPO, a variant that operates on a turn-level MDP formulation, as opposed to the commonly used token-level MDP. Our results on the WebShop and Sokoban datasets demonstrate the effectiveness of turn-PPO, both with and without long reasoning components.

Turn-PPO: Estimación de Ventaja a Nivel de Turno con PPO para una RL Multiturno Mejorada en LLMs Agentes

Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

Resumen

Support