ChatPaper.aiChatPaper

Turn-PPO: Stima del Vantaggio a Livello di Turno con PPO per un RL Multi-Turn Migliorato negli Agenti LLM

Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

December 18, 2025
Autori: Junbo Li, Peng Zhou, Rui Meng, Meet P. Vadera, Lihong Li, Yang Li
cs.AI

Abstract

L'apprendimento per rinforzo (RL) è riemerso come un approccio naturale per addestrare agenti LLM interattivi in ambienti reali. Tuttavia, l'applicazione diretta del diffuso algoritmo di Ottimizzazione della Politica di Gruppo Relativa (GRPO) a compiti multi-turno rivela limitazioni significative, specialmente in scenari che richiedono ragionamenti a lungo termine. Per affrontare queste sfide, investigiamo strategie di stima del vantaggio più stabili ed efficaci, in particolare per contesti multi-turno. Inizialmente esploriamo l'Ottimizzazione della Politica Prossimale (PPO) come alternativa e la troviamo più robusta rispetto al GRPO. Per potenziare ulteriormente il PPO negli scenari multi-turno, introduciamo turn-PPO, una variante che opera su una formulazione MDP a livello di turno, in contrapposizione all'usuale MDP a livello di token. I nostri risultati sui dataset WebShop e Sokoban dimostrano l'efficacia di turn-PPO, sia con che senza componenti di ragionamento complesso.
English
Reinforcement learning (RL) has re-emerged as a natural approach for training interactive LLM agents in real-world environments. However, directly applying the widely used Group Relative Policy Optimization (GRPO) algorithm to multi-turn tasks exposes notable limitations, particularly in scenarios requiring long-horizon reasoning. To address these challenges, we investigate more stable and effective advantage estimation strategies, especially for multi-turn settings. We first explore Proximal Policy Optimization (PPO) as an alternative and find it to be more robust than GRPO. To further enhance PPO in multi-turn scenarios, we introduce turn-PPO, a variant that operates on a turn-level MDP formulation, as opposed to the commonly used token-level MDP. Our results on the WebShop and Sokoban datasets demonstrate the effectiveness of turn-PPO, both with and without long reasoning components.
PDF91December 23, 2025