BandPO: 신뢰 영역과 비율 클리핑을 연결하는 LLM 강화 학습을 위한 확률 인식 경계
BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning
March 5, 2026
저자: Yuan Li, Bo Wang, Yufei Gao, Yuqian Yao, Xinyuan Wang, Zhangyue Yin, Xipeng Qiu
cs.AI
초록
근위 제약은 대규모 언어 모델 강화 학습의 안정성에 핵심적인 역할을 합니다. PPO의 표준 클리핑 메커니즘은 신뢰 영역에 대한 효율적인 대리 목적 함수로 기능하지만, 우리는 중요한 병목 현상을 발견했습니다: 고정된 경계는 낮은 확률 행동의 상향 업데이트 여지를 엄격히 제한하여, 높은 어드밴티지를 지닌 꼬리 전략을 불균형적으로 억압하고 빠른 엔트로피 붕괴를 유발합니다. 이를 해결하기 위해 우리는 대역 제약 정책 최적화(BandPO)를 제안합니다. BandPO는 표준 클리핑을 Band로 대체합니다. Band는 f-발산으로 정의된 신뢰 영역을 동적이며 확률을 고려한 클리핑 구간으로 투영하는 통합 이론적 연산자입니다. 이론적 분석을 통해 Band가 이러한 탐색 병목 현상을 효과적으로 해결함을 확인했습니다. 우리는 이 매핑을 볼록 최적화 문제로 공식화하여, 특정 발산에 대해 닫힌 형태의 해를 도출하면서도 전역적으로 최적인 수치 해를 보장합니다. 다양한 모델과 데이터셋에 걸친 폭넓은 실험을 통해 BandPO가 표준 클리핑과 Clip-Higher를 지속적으로 능가함과 동시에 엔트로피 붕괴를 강건하게 완화함을 입증했습니다.
English
Proximal constraints are fundamental to the stability of the Large Language Model reinforcement learning. While the canonical clipping mechanism in PPO serves as an efficient surrogate for trust regions, we identify a critical bottleneck: fixed bounds strictly constrain the upward update margin of low-probability actions, disproportionately suppressing high-advantage tail strategies and inducing rapid entropy collapse. To address this, we introduce Band-constrained Policy Optimization (BandPO). BandPO replaces canonical clipping with Band, a unified theoretical operator that projects trust regions defined by f-divergences into dynamic, probability-aware clipping intervals. Theoretical analysis confirms that Band effectively resolves this exploration bottleneck. We formulate this mapping as a convex optimization problem, guaranteeing a globally optimal numerical solution while deriving closed-form solutions for specific divergences. Extensive experiments across diverse models and datasets demonstrate that BandPO consistently outperforms canonical clipping and Clip-Higher, while robustly mitigating entropy collapse.