ChatPaper.aiChatPaper

턴-PPO: 에이전트형 LLM의 향상된 다중 턴 강화학습을 위한 턴 단위 어드밴티지 추정과 PPO

Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

December 18, 2025
저자: Junbo Li, Peng Zhou, Rui Meng, Meet P. Vadera, Lihong Li, Yang Li
cs.AI

초록

강화학습(RL)은 현실 환경에서 상호작용하는 LLM 에이전트를 훈련시키는 자연스러운 접근법으로 다시 주목받고 있습니다. 그러나 널리 사용되는 GRPO(Group Relative Policy Optimization) 알고리즘을 다중 턴 작업에 직접 적용하면 장기 추론이 필요한 시나리오에서 특히 두드러진 한계가 나타납니다. 이러한 문제를 해결하기 위해 우리는 다중 턴 설정에 더욱 안정적이고 효과적인 어드밴티지 추정 전략을 연구합니다. 먼저 PPO(Proximal Policy Optimization)를 대안으로 탐색한 결과, GRPO보다 더 강력한 성능을 보임을 확인했습니다. 다중 턴 시나리오에서 PPO를 더욱 향상시키기 위해, 우리는 일반적인 토큰 수준 MDP와 대조적으로 턴 수준 MDP 형식을 기반으로 작동하는 변형 알고리즘인 turn-PPO를 제안합니다. WebShop 및 Sokoban 데이터셋에서의 실험 결과는 장기 추론 구성 요소 유무에 관계없이 turn-PPO의 효과성을 입증합니다.
English
Reinforcement learning (RL) has re-emerged as a natural approach for training interactive LLM agents in real-world environments. However, directly applying the widely used Group Relative Policy Optimization (GRPO) algorithm to multi-turn tasks exposes notable limitations, particularly in scenarios requiring long-horizon reasoning. To address these challenges, we investigate more stable and effective advantage estimation strategies, especially for multi-turn settings. We first explore Proximal Policy Optimization (PPO) as an alternative and find it to be more robust than GRPO. To further enhance PPO in multi-turn scenarios, we introduce turn-PPO, a variant that operates on a turn-level MDP formulation, as opposed to the commonly used token-level MDP. Our results on the WebShop and Sokoban datasets demonstrate the effectiveness of turn-PPO, both with and without long reasoning components.
PDF91December 23, 2025