80/20の法則を超えて:高エントロピーの少数トークンがLLM推論の効果的な強化学習を駆動する
Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
June 2, 2025
著者: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる強力なアプローチとして登場したが、そのメカニズムはまだ十分に理解されていない。本研究では、トークンエントロピーパターンという新たな視点を通じてRLVRを先駆的に探求し、異なるトークンが推論性能にどのように影響するかを包括的に分析する。Chain-of-Thought(CoT)推論におけるトークンエントロピーパターンを調査した結果、高エントロピーを示すトークンはごく一部であり、これらのトークンがモデルを多様な推論経路に導く重要な分岐点として機能していることが観察された。さらに、RLVRトレーニング中にエントロピーパターンがどのように進化するかを研究すると、RLVRはベースモデルのエントロピーパターンを概ね維持しつつ、主に高エントロピートークンのエントロピーを調整することが明らかになった。これらの発見は、高エントロピートークン(すなわち分岐トークン)がRLVRにとって重要であることを強調している。最終的に、ポリシー勾配更新を分岐トークンに制限することでRLVRを改善し、80/20ルールを超える発見を明らかにした:Qwen3-8Bベースモデルでは全勾配更新と同等の性能を維持しつつ20%のトークンのみを利用し、Qwen3-32B(AIME'25で+11.04、AIME'24で+7.71)およびQwen3-14B(AIME'25で+4.79、AIME'24で+5.21)ベースモデルでは全勾配更新を大幅に上回り、強いスケーリング傾向を示した。対照的に、エントロピーが最も低い80%のトークンに限定してトレーニングを行うと、性能が顕著に低下した。これらの結果は、RLVRの有効性が主に推論方向を決定する高エントロピートークンの最適化に由来することを示唆している。全体として、我々の結果は、トークンエントロピーの視点を通じてRLVRを理解し、高エントロピーの少数トークンを活用してRLVRを最適化することでLLMの推論をさらに改善する可能性を強調している。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
powerful approach to enhancing the reasoning capabilities of Large Language
Models (LLMs), while its mechanisms are not yet well understood. In this work,
we undertake a pioneering exploration of RLVR through the novel perspective of
token entropy patterns, comprehensively analyzing how different tokens
influence reasoning performance. By examining token entropy patterns in
Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of
tokens exhibit high entropy, and these tokens act as critical forks that steer
the model toward diverse reasoning pathways. Furthermore, studying how entropy
patterns evolve during RLVR training reveals that RLVR largely adheres to the
base model's entropy patterns, primarily adjusting the entropy of high-entropy
tokens. These findings highlight the significance of high-entropy tokens (i.e.,
forking tokens) to RLVR. We ultimately improve RLVR by restricting policy
gradient updates to forking tokens and uncover a finding even beyond the 80/20
rule: utilizing only 20% of the tokens while maintaining performance comparable
to full-gradient updates on the Qwen3-8B base model and significantly
surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71
on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models,
highlighting a strong scaling trend. In contrast, training exclusively on the
80% lowest-entropy tokens leads to a marked decline in performance. These
findings indicate that the efficacy of RLVR primarily arises from optimizing
the high-entropy tokens that decide reasoning directions. Collectively, our
results highlight the potential to understand RLVR through a token-entropy
perspective and optimize RLVR by leveraging high-entropy minority tokens to
further improve LLM reasoning.