ChatPaper.aiChatPaper

안정적 강화 학습을 위한 소프트 글로벌 제약 조건으로서의 엔트로피 비율 클리핑

Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

December 5, 2025
저자: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Tiehua Mei, Zijia Lin, Yuntao Li, Wenping Hu, Ruiming Tang, Kun Gai, Guorui Zhou
cs.AI

초록

대규모 언어 모델의 사후 훈련은 강화 학습을 통해 모델 성능과 정렬 품질을 향상시키는 데 의존합니다. 그러나 오프-폴리시 훈련 패러다임은 분포 이동을 초래하며, 이는 종종 정책을 신뢰 구역을 벗어나게 하여 정책 엔트로피 변동과 불안정한 기울기로 나타나는 훈련 불안정성을 야기합니다. PPO-Clip은 중요도 클리핑을 통해 이 문제를 완화하지만, 여전히 행동의 전역적 분포 이동을 간과합니다. 이러한 과제를 해결하기 위해 본 연구에서는 현재 정책과 이전 정책 간의 엔트로피 비율을 새로운 전역 지표로 제안합니다. 이 지표는 업데이트 과정 전반에 걸친 정책 탐색의 상대적 변화를 효과적으로 정량화합니다. 이 지표를 기반으로 엔트로피 비율 클리핑(ERC) 메커니즘을 도입하여 엔트로피 비율에 양방향 제약을 가합니다. 이를 통해 전역 분포 수준에서 정책 업데이트를 안정화하고, PPO-clip이 샘플링되지 않은 행동의 확률 변화를 규제하지 못하는 점을 보완합니다. ERC를 DAPO 및 GPPO 강화 학습 알고리즘에 통합하였으며, 다양한 벤치마크에서의 실험 결과 ERC가 지속적으로 성능을 향상시키는 것으로 나타났습니다.
English
Large language model post-training relies on reinforcement learning to improve model capability and alignment quality. However, the off-policy training paradigm introduces distribution shift, which often pushes the policy beyond the trust region, leading to training instabilities manifested as fluctuations in policy entropy and unstable gradients. Although PPO-Clip mitigates this issue through importance clipping, it still overlooks the global distributional shift of actions. To address these challenges, we propose using the entropy ratio between the current and previous policies as a new global metric that effectively quantifies the relative change in policy exploration throughout updates. Building on this metric, we introduce an Entropy Ratio Clipping (ERC) mechanism that imposes bidirectional constraints on the entropy ratio. This stabilizes policy updates at the global distribution level and compensates for the inability of PPO-clip to regulate probability shifts of un-sampled actions. We integrate ERC into both DAPO and GPPO reinforcement learning algorithms. Experiments across multiple benchmarks show that ERC consistently improves performance.
PDF162December 9, 2025