Turn-PPO : Estimation de l'avantage par tour avec PPO pour une amélioration du RL multi-tours dans les LLMs agentiels
Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs
December 18, 2025
papers.authors: Junbo Li, Peng Zhou, Rui Meng, Meet P. Vadera, Lihong Li, Yang Li
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) réémerge comme une approche naturelle pour entraîner des agents LLM interactifs dans des environnements réels. Cependant, l'application directe de l'algorithme largement utilisé qu'est l'Optimisation de Politique par Groupe Relatif (GRPO) à des tâches multi-tours révèle des limitations notables, particulièrement dans les scénarios nécessitant un raisonnement à long terme. Pour relever ces défis, nous étudions des stratégies d'estimation de l'avantage plus stables et efficaces, spécialement pour les configurations multi-tours. Nous explorons d'abord l'Optimisation de Politique Proximale (PPO) comme alternative et constatons qu'elle est plus robuste que le GRPO. Pour améliorer encore les performances du PPO dans les scénarios multi-tours, nous présentons le turn-PPO, une variante qui opère sur une formulation MDP au niveau du tour, par opposition au MDP au niveau du token couramment utilisé. Nos résultats sur les jeux de données WebShop et Sokoban démontrent l'efficacité du turn-PPO, à la fois avec et sans composantes de raisonnement long.
English
Reinforcement learning (RL) has re-emerged as a natural approach for training interactive LLM agents in real-world environments. However, directly applying the widely used Group Relative Policy Optimization (GRPO) algorithm to multi-turn tasks exposes notable limitations, particularly in scenarios requiring long-horizon reasoning. To address these challenges, we investigate more stable and effective advantage estimation strategies, especially for multi-turn settings. We first explore Proximal Policy Optimization (PPO) as an alternative and find it to be more robust than GRPO. To further enhance PPO in multi-turn scenarios, we introduce turn-PPO, a variant that operates on a turn-level MDP formulation, as opposed to the commonly used token-level MDP. Our results on the WebShop and Sokoban datasets demonstrate the effectiveness of turn-PPO, both with and without long reasoning components.