ChatPaper.aiChatPaper

勾配保存の観点に基づくRLVRにおける柔軟なエントロピー制御

Flexible Entropy Control in RLVR with Gradient-Preserving Perspective

February 10, 2026
著者: Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を強化する重要な手法として登場している。しかし、継続的な学習は政策エントロピーの崩壊を引き起こしやすく、エントロピーの急激な減衰によって早期の過信状態、出力多様性の低下、学習を阻害する勾配ノルムの消失が生じる。勾配保存型クリッピングはこれらの動態に影響を与える主要因であるが、既存の対策戦略は静的で、クリッピング機構と精密なエントロピー制御を結びつける枠組みを欠いている。本論文は、勾配保存型クリッピングの観点からRLにおけるエントロピー制御を再構築する。まず理論的・実証的に、特定の重要度サンプリング比領域がエントロピーの増減に与える影響を検証する。これらの知見を活用し、動的クリッピング閾値を用いた新規の調整機構を提案し、エントロピーを精密に管理する。さらに、増加→減少、減少→増加→減少、振動的減衰といった動的エントロピー制御戦略を設計・評価する。実験結果は、これらの戦略がエントロピー崩壊を効果的に緩和し、複数のベンチマークで優れた性能を達成することを示している。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a critical method for enhancing the reasoning capabilities of Large Language Models (LLMs). However, continuous training often leads to policy entropy collapse, characterized by a rapid decay in entropy that results in premature overconfidence, reduced output diversity, and vanishing gradient norms that inhibit learning. Gradient-Preserving Clipping is a primary factor influencing these dynamics, but existing mitigation strategies are largely static and lack a framework connecting clipping mechanisms to precise entropy control. This paper proposes reshaping entropy control in RL from the perspective of Gradient-Preserving Clipping. We first theoretically and empirically verify the contributions of specific importance sampling ratio regions to entropy growth and reduction. Leveraging these findings, we introduce a novel regulation mechanism using dynamic clipping threshold to precisely manage entropy. Furthermore, we design and evaluate dynamic entropy control strategies, including increase-then-decrease, decrease-increase-decrease, and oscillatory decay. Experimental results demonstrate that these strategies effectively mitigate entropy collapse, and achieve superior performance across multiple benchmarks.
PDF21February 11, 2026