ChatPaper.aiChatPaper

Turn-PPO: Оценка преимущества на уровне хода с PPO для улучшения многоходового обучения с подкреплением в агентных больших языковых моделях

Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

December 18, 2025
Авторы: Junbo Li, Peng Zhou, Rui Meng, Meet P. Vadera, Lihong Li, Yang Li
cs.AI

Аннотация

Обучение с подкреплением (RL) вновь стало естественным подходом для тренировки интерактивных LLM-агентов в реальных средах. Однако прямое применение широко используемого алгоритма GRPO (Group Relative Policy Optimization) к многоходовым задачам выявляет существенные ограничения, особенно в сценариях, требующих долгосрочного планирования. Для решения этих проблем мы исследуем более стабильные и эффективные стратегии оценки преимущества, в частности, для многоходовых setting'ов. Сначала мы рассматриваем PPO (Proximal Policy Optimization) в качестве альтернативы и обнаруживаем, что он более устойчив, чем GRPO. Для дальнейшего улучшения PPO в многоходовых сценариях мы представляем turn-PPO — вариант, который работает на уровне хода (turn-level MDP), в отличие от общепринятой формулировки на уровне токена (token-level MDP). Наши результаты на наборах данных WebShop и Sokoban демонстрируют эффективность turn-PPO как с компонентами долгого рассуждения, так и без них.
English
Reinforcement learning (RL) has re-emerged as a natural approach for training interactive LLM agents in real-world environments. However, directly applying the widely used Group Relative Policy Optimization (GRPO) algorithm to multi-turn tasks exposes notable limitations, particularly in scenarios requiring long-horizon reasoning. To address these challenges, we investigate more stable and effective advantage estimation strategies, especially for multi-turn settings. We first explore Proximal Policy Optimization (PPO) as an alternative and find it to be more robust than GRPO. To further enhance PPO in multi-turn scenarios, we introduce turn-PPO, a variant that operates on a turn-level MDP formulation, as opposed to the commonly used token-level MDP. Our results on the WebShop and Sokoban datasets demonstrate the effectiveness of turn-PPO, both with and without long reasoning components.
PDF91December 23, 2025