Turn-PPO: Turn-spezifische Advantage-Schätzung mit PPO für verbessertes Multi-Turn-Reinforcement-Learning in agentischen LLMs
Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs
December 18, 2025
papers.authors: Junbo Li, Peng Zhou, Rui Meng, Meet P. Vadera, Lihong Li, Yang Li
cs.AI
papers.abstract
Verstärkendes Lernen (RL) hat sich erneut als natürlicher Ansatz für das Training interaktiver LLM-Agenten in realen Umgebungen erwiesen. Die direkte Anwendung des weit verbreiteten Group Relative Policy Optimization (GRPO)-Algorithmus auf mehrstufige Aufgaben zeigt jedoch bemerkenswerte Einschränkungen, insbesondere in Szenarien, die langfristiges Planungsvermögen erfordern. Um diese Herausforderungen zu bewältigen, untersuchen wir stabilere und effektivere Strategien zur Schätzung des Vorteilswerts, speziell für Mehrschritt-Settings. Wir untersuchen zunächst Proximal Policy Optimization (PPO) als Alternative und stellen fest, dass es robuster als GRPO ist. Um PPO in Mehrschritt-Szenarien weiter zu verbessern, führen wir turn-PPO ein, eine Variante, die auf einer zug-basierten MDP-Formulierung operiert, im Gegensatz zur häufig verwendeten token-basierten MDP-Formulierung. Unsere Ergebnisse auf den WebShop- und Sokoban-Datensätzen demonstrieren die Wirksamkeit von turn-PPO, sowohl mit als auch ohne langkettige Reasoning-Komponenten.
English
Reinforcement learning (RL) has re-emerged as a natural approach for training interactive LLM agents in real-world environments. However, directly applying the widely used Group Relative Policy Optimization (GRPO) algorithm to multi-turn tasks exposes notable limitations, particularly in scenarios requiring long-horizon reasoning. To address these challenges, we investigate more stable and effective advantage estimation strategies, especially for multi-turn settings. We first explore Proximal Policy Optimization (PPO) as an alternative and find it to be more robust than GRPO. To further enhance PPO in multi-turn scenarios, we introduce turn-PPO, a variant that operates on a turn-level MDP formulation, as opposed to the commonly used token-level MDP. Our results on the WebShop and Sokoban datasets demonstrate the effectiveness of turn-PPO, both with and without long reasoning components.