Turn-PPO: Turmgewijze Voordelschatting met PPO voor Verbeterde Multi-Turn RL in Agenterende LLM's
Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs
December 18, 2025
Auteurs: Junbo Li, Peng Zhou, Rui Meng, Meet P. Vadera, Lihong Li, Yang Li
cs.AI
Samenvatting
Versterkend leren (RL) is opnieuw naar voren gekomen als een natuurlijke aanpak voor het trainen van interactieve LLM-agenten in realistische omgevingen. Het direct toepassen van het veelgebruikte Group Relative Policy Optimization (GRPO)-algoritme op taken met meerdere beurten laat echter aanzienlijke beperkingen zien, vooral in scenario's die langetermijnredenering vereisen. Om deze uitdagingen aan te pakken, onderzoeken we stabielere en effectievere strategieën voor het schatten van het voordeel (advantage), met name voor instellingen met meerdere beurten. We onderzoeken eerst Proximal Policy Optimization (PPO) als een alternatief en concluderen dat het robuuster is dan GRPO. Om PPO verder te verbeteren in scenario's met meerdere beurten, introduceren we turn-PPO, een variant die werkt op een beurt-niveau MDP-formulering, in tegenstelling tot het veelgebruikte token-niveau MDP. Onze resultaten op de WebShop- en Sokoban-datasets demonstreren de effectiviteit van turn-PPO, zowel met als zonder componenten voor langere redenering.
English
Reinforcement learning (RL) has re-emerged as a natural approach for training interactive LLM agents in real-world environments. However, directly applying the widely used Group Relative Policy Optimization (GRPO) algorithm to multi-turn tasks exposes notable limitations, particularly in scenarios requiring long-horizon reasoning. To address these challenges, we investigate more stable and effective advantage estimation strategies, especially for multi-turn settings. We first explore Proximal Policy Optimization (PPO) as an alternative and find it to be more robust than GRPO. To further enhance PPO in multi-turn scenarios, we introduce turn-PPO, a variant that operates on a turn-level MDP formulation, as opposed to the commonly used token-level MDP. Our results on the WebShop and Sokoban datasets demonstrate the effectiveness of turn-PPO, both with and without long reasoning components.