推論言語モデルのための強化学習におけるエントロピー機構The Entropy Mechanism of Reinforcement Learning for Reasoning Language
Models
本論文は、大規模言語モデル(LLM)を用いた推論における強化学習(RL)のスケーリングにおける主要な障害、すなわちポリシーエントロピーの崩壊を克服することを目的としています。この現象は、エントロピー介入なしの広範なRL実行において一貫して観察され、ポリシーエントロピーが訓練の初期段階で急激に低下し、この探索能力の低下は常にポリシーパフォーマンスの飽和を伴います。実際に、我々はエントロピーHと下流パフォーマンスRの間に変換式R=-a*e^H+bを確立しました。この経験則は、ポリシーパフォーマンスがポリシーエントロピーとトレードオフの関係にあり、その枯渇によってボトルネックが生じ、上限が完全に予測可能であることを強く示唆しています(H=0, R=-a+b)。この発見は、RLの計算リソースをスケールさせるための継続的な探索のためにエントロピー管理が必要であることを示しています。この目的のために、我々はエントロピー動態を理論的および経験的に調査しました。我々の導出は、ポリシーエントロピーの変化が、アクション確率とロジットの変化の共分散によって駆動され、Policy Gradientのようなアルゴリズムを使用する場合にそのアドバンテージに比例することを強調しています。経験的研究は、共分散項とエントロピー差の値が正確に一致し、理論的結論を支持することを示しています。さらに、共分散項は訓練全体を通じてほとんど正の値を保ち、ポリシーエントロピーが単調に減少する理由をさらに説明しています。エントロピー動態の背後にあるメカニズムを理解することで、我々は高共分散トークンの更新を制限することでエントロピーを制御することを動機付けました。具体的には、Clip-CovとKL-Covという2つのシンプルでありながら効果的な手法を提案し、それぞれ高共分散トークンをクリップし、KLペナルティを適用します。実験結果は、これらの手法が探索を促進し、ポリシーがエントロピー崩壊から脱却し、より良い下流パフォーマンスを達成するのに役立つことを示しています。