ChatPaper.aiChatPaper

기울기 보존 관점에서 RLVR의 유연한 엔트로피 제어

Flexible Entropy Control in RLVR with Gradient-Preserving Perspective

February 10, 2026
저자: Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 핵심 방법으로 부상했습니다. 그러나 지속적인 학습은 정책 엔트로피 붕괴를 초래하는 경우가 많으며, 이는 엔트로피의 급격한 감소로 인해 조기 과신, 출력 다양성 저하, 학습을 저해하는 소실 기울기 노름을 특징으로 합니다. 기울기 보존 클리핑은 이러한 역학에 영향을 미치는 주요 요소이지만, 기존 완화 전략은 대부분 정적이며 클리핑 메커니즘과 정밀한 엔트로피 제어를 연결하는 체계가 부족합니다. 본 논문은 기울기 보존 클리핑 관점에서 RL의 엔트로피 제어를 재정립합니다. 먼저 특정 중요도 샘플링 비율 영역이 엔트로피 증가 및 감소에 기여하는 방식을 이론 및 실증적으로 검증합니다. 이러한 발견을 바탕으로 동적 클리핑 임계값을 사용한 새로운 규제 메커니즘을 도입하여 엔트로피를 정밀하게 관리합니다. 더 나아가 증가-후-감소, 감소-증가-감소, 진동 감소를 포함한 동적 엔트로피 제어 전략을 설계 및 평가합니다. 실험 결과, 이러한 전략이 엔트로피 붕괴를 효과적으로 완화하고 여러 벤치마크에서 우수한 성능을 달성함을 보여줍니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.
PDF21February 11, 2026