推論言語モデルのための強化学習におけるエントロピー機構
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
May 28, 2025
著者: Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding
cs.AI
要旨
本論文は、大規模言語モデル(LLM)を用いた推論における強化学習(RL)のスケーリングにおける主要な障害、すなわちポリシーエントロピーの崩壊を克服することを目的としています。この現象は、エントロピー介入なしの広範なRL実行において一貫して観察され、ポリシーエントロピーが訓練の初期段階で急激に低下し、この探索能力の低下は常にポリシーパフォーマンスの飽和を伴います。実際に、我々はエントロピーHと下流パフォーマンスRの間に変換式R=-a*e^H+bを確立しました。この経験則は、ポリシーパフォーマンスがポリシーエントロピーとトレードオフの関係にあり、その枯渇によってボトルネックが生じ、上限が完全に予測可能であることを強く示唆しています(H=0, R=-a+b)。この発見は、RLの計算リソースをスケールさせるための継続的な探索のためにエントロピー管理が必要であることを示しています。この目的のために、我々はエントロピー動態を理論的および経験的に調査しました。我々の導出は、ポリシーエントロピーの変化が、アクション確率とロジットの変化の共分散によって駆動され、Policy Gradientのようなアルゴリズムを使用する場合にそのアドバンテージに比例することを強調しています。経験的研究は、共分散項とエントロピー差の値が正確に一致し、理論的結論を支持することを示しています。さらに、共分散項は訓練全体を通じてほとんど正の値を保ち、ポリシーエントロピーが単調に減少する理由をさらに説明しています。エントロピー動態の背後にあるメカニズムを理解することで、我々は高共分散トークンの更新を制限することでエントロピーを制御することを動機付けました。具体的には、Clip-CovとKL-Covという2つのシンプルでありながら効果的な手法を提案し、それぞれ高共分散トークンをクリップし、KLペナルティを適用します。実験結果は、これらの手法が探索を促進し、ポリシーがエントロピー崩壊から脱却し、より良い下流パフォーマンスを達成するのに役立つことを示しています。
English
This paper aims to overcome a major obstacle in scaling RL for reasoning with
LLMs, namely the collapse of policy entropy. Such phenomenon is consistently
observed across vast RL runs without entropy intervention, where the policy
entropy dropped sharply at the early training stage, this diminished
exploratory ability is always accompanied with the saturation of policy
performance. In practice, we establish a transformation equation R=-a*e^H+b
between entropy H and downstream performance R. This empirical law strongly
indicates that, the policy performance is traded from policy entropy, thus
bottlenecked by its exhaustion, and the ceiling is fully predictable H=0,
R=-a+b. Our finding necessitates entropy management for continuous exploration
toward scaling compute for RL. To this end, we investigate entropy dynamics
both theoretically and empirically. Our derivation highlights that, the change
in policy entropy is driven by the covariance between action probability and
the change in logits, which is proportional to its advantage when using Policy
Gradient-like algorithms. Empirical study shows that, the values of covariance
term and entropy differences matched exactly, supporting the theoretical
conclusion. Moreover, the covariance term stays mostly positive throughout
training, further explaining why policy entropy would decrease monotonically.
Through understanding the mechanism behind entropy dynamics, we motivate to
control entropy by restricting the update of high-covariance tokens.
Specifically, we propose two simple yet effective techniques, namely Clip-Cov
and KL-Cov, which clip and apply KL penalty to tokens with high covariances
respectively. Experiments show that these methods encourage exploration, thus
helping policy escape entropy collapse and achieve better downstream
performance.Summary
AI-Generated Summary