ChatPaper.aiChatPaper

BAPO: 적응형 클리핑을 통한 균형 잡힌 정책 최적화로 LLM을 위한 오프-폴리시 강화 학습 안정화

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

October 21, 2025
저자: Zhiheng Xi, Xin Guo, Yang Nan, Enyu Zhou, Junrui Shen, Wenxiang Chen, Jiaqi Liu, Jixuan Huang, Zhihao Zhang, Honglin Guo, Xun Deng, Zhikai Lei, Miao Zheng, Guoteng Wang, Shuo Zhang, Peng Sun, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

초록

강화 학습(Reinforcement Learning, RL)은 최근 대규모 언어 모델(Large Language Models, LLMs)을 정렬하고 강화하는 핵심 패러다임으로 자리 잡았습니다. 그러나 오프-폴리시(off-policy) 설정에서 RL을 적용할 때—과거 정책에서 생성된 오래된 데이터를 훈련에 사용하는 경우—샘플 효율성은 개선되지만, 여전히 몇 가지 도전 과제가 남아 있습니다: 정책 엔트로피가 급격히 감소하고, 최적화가 불안정해지며 심지어 붕괴될 위험이 있습니다. 이론적 및 실증적 분석을 통해 우리는 두 가지 핵심 통찰을 도출했습니다: (i) 최적화 과정에서 부정적 이점(negative-advantage) 샘플이 정책 그래디언트를 지배하여 유용한 행동을 억제하고 그래디언트 폭발의 위험을 초래하는 불균형, 그리고 (ii) 엔트로피 클립 규칙(Entropy-Clip Rule)으로, PPO(Proximal Policy Optimization)와 유사한 목적 함수에서 고정된 클리핑 메커니즘이 엔트로피 증가 업데이트를 체계적으로 차단하여 정책이 탐험(exploration)을 희생하면서 과도한 활용(over-exploitation)으로 치우치게 만드는 현상을 밝혀냈습니다. 이러한 통찰을 바탕으로, 우리는 적응형 클리핑을 통한 균형 잡힌 정책 최적화(BAlanced Policy Optimization with Adaptive Clipping, BAPO)를 제안합니다. 이는 클리핑 범위를 동적으로 조정하여 긍정적 및 부정적 기여를 재균형하고, 엔트로피를 보존하며, RL 최적화를 안정화하는 간단하지만 효과적인 방법입니다. 샘플 재생(sample replay) 및 부분 롤아웃(partial rollout)을 포함한 다양한 오프-폴리시 시나리오에서 BAPO는 빠르고 안정적이며 데이터 효율적인 훈련을 달성합니다. AIME 2024 및 AIME 2025 벤치마크에서, 우리의 7B BAPO 모델은 SkyWork-OR1-7B와 같은 오픈소스 대안을 능가하며, 32B BAPO 모델은 동일 규모의 모델 중에서 최신 기술(state-of-the-art) 결과를 달성할 뿐만 아니라 o3-mini 및 Gemini-2.5-Flash-Thinking와 같은 선도적인 독점 시스템도 능가합니다.
English
Reinforcement learning (RL) has recently become the core paradigm for aligning and strengthening large language models (LLMs). Yet, applying RL in off-policy settings--where stale data from past policies are used for training--improves sample efficiency, but remains challenging: policy entropy declines sharply, optimization often becomes unstable and may even collapse. Through theoretical and empirical analysis, we identify two key insights: (i) an imbalance in optimization, where negative-advantage samples dominate the policy gradient, suppressing useful behaviors and risking gradient explosions; and (ii) the derived Entropy-Clip Rule, which reveals that the fixed clipping mechanism in PPO-like objectives systematically blocks entropy-increasing updates, thereby driving the policy toward over-exploitation at the expense of exploration. Building on these insights, we propose BAlanced Policy Optimization with Adaptive Clipping (BAPO), a simple yet effective method that dynamically adjusts clipping bounds to adaptively re-balance positive and negative contributions, preserve entropy, and stabilize RL optimization. Across diverse off-policy scenarios--including sample replay and partial rollout--BAPO achieves fast, stable, and data-efficient training. On AIME 2024 and AIME 2025 benchmarks, our 7B BAPO model surpasses open-source counterparts such as SkyWork-OR1-7B, while our 32B BAPO model not only achieves state-of-the-art results among models of the same scale but also outperforms leading proprietary systems like o3-mini and Gemini-2.5-Flash-Thinking.
PDF561October 23, 2025