ChatPaper.aiChatPaper

Turn-PPO: エージェンシックLLMにおけるマルチターン強化学習の改善のためのターンレベルアドバンテージ推定とPPO

Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

December 18, 2025
著者: Junbo Li, Peng Zhou, Rui Meng, Meet P. Vadera, Lihong Li, Yang Li
cs.AI

要旨

強化学習(RL)は、実世界環境で対話型LLMエージェントを訓練するための自然なアプローチとして再注目されている。しかし、広く使用されているGroup Relative Policy Optimization(GRPO)アルゴリズムを多ターンタスクに直接適用すると、特に長期的な推論を必要とするシナリオにおいて顕著な限界が生じる。これらの課題に対処するため、我々は、より安定かつ効果的なアドバンテージ推定戦略、特に多ターン設定向けの戦略を調査する。まず、代替案としてProximal Policy Optimization(PPO)を検討し、GRPOよりもロバスト性が高いことを確認した。多ターンシナリオにおけるPPOをさらに強化するため、一般的に使用されるトークンレベルのMDP定式化とは対照的に、ターンレベルのMDP定式化で動作する変種であるturn-PPOを導入する。WebShopおよびSokobanデータセットを用いた実験結果は、長い推論コンポーネントの有無にかかわらず、turn-PPOの有効性を実証している。
English
Reinforcement learning (RL) has re-emerged as a natural approach for training interactive LLM agents in real-world environments. However, directly applying the widely used Group Relative Policy Optimization (GRPO) algorithm to multi-turn tasks exposes notable limitations, particularly in scenarios requiring long-horizon reasoning. To address these challenges, we investigate more stable and effective advantage estimation strategies, especially for multi-turn settings. We first explore Proximal Policy Optimization (PPO) as an alternative and find it to be more robust than GRPO. To further enhance PPO in multi-turn scenarios, we introduce turn-PPO, a variant that operates on a turn-level MDP formulation, as opposed to the commonly used token-level MDP. Our results on the WebShop and Sokoban datasets demonstrate the effectiveness of turn-PPO, both with and without long reasoning components.
PDF91December 23, 2025