80/20の法則を超えて:高エントロピーの少数トークンがLLM推論の効果的な強化学習を駆動するBeyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective
Reinforcement Learning for LLM Reasoning
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる強力なアプローチとして登場したが、そのメカニズムはまだ十分に理解されていない。本研究では、トークンエントロピーパターンという新たな視点を通じてRLVRを先駆的に探求し、異なるトークンが推論性能にどのように影響するかを包括的に分析する。Chain-of-Thought(CoT)推論におけるトークンエントロピーパターンを調査した結果、高エントロピーを示すトークンはごく一部であり、これらのトークンがモデルを多様な推論経路に導く重要な分岐点として機能していることが観察された。さらに、RLVRトレーニング中にエントロピーパターンがどのように進化するかを研究すると、RLVRはベースモデルのエントロピーパターンを概ね維持しつつ、主に高エントロピートークンのエントロピーを調整することが明らかになった。これらの発見は、高エントロピートークン(すなわち分岐トークン)がRLVRにとって重要であることを強調している。最終的に、ポリシー勾配更新を分岐トークンに制限することでRLVRを改善し、80/20ルールを超える発見を明らかにした:Qwen3-8Bベースモデルでは全勾配更新と同等の性能を維持しつつ20%のトークンのみを利用し、Qwen3-32B(AIME'25で+11.04、AIME'24で+7.71)およびQwen3-14B(AIME'25で+4.79、AIME'24で+5.21)ベースモデルでは全勾配更新を大幅に上回り、強いスケーリング傾向を示した。対照的に、エントロピーが最も低い80%のトークンに限定してトレーニングを行うと、性能が顕著に低下した。これらの結果は、RLVRの有効性が主に推論方向を決定する高エントロピートークンの最適化に由来することを示唆している。全体として、我々の結果は、トークンエントロピーの視点を通じてRLVRを理解し、高エントロピーの少数トークンを活用してRLVRを最適化することでLLMの推論をさらに改善する可能性を強調している。