Jenseits der 80/20-Regel: Hoch-entropische Minderheitstokens treiben effektives Reinforcement Learning für das Reasoning von LLMs voran
Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
June 2, 2025
Autoren: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
cs.AI
Zusammenfassung
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als ein leistungsstarker Ansatz erwiesen, um die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung zu verbessern, obwohl die zugrunde liegenden Mechanismen noch nicht vollständig verstanden sind. In dieser Arbeit unternehmen wir eine wegweisende Untersuchung von RLVR aus der neuartigen Perspektive von Token-Entropiemustern und analysieren umfassend, wie verschiedene Token die Leistung bei der logischen Schlussfolgerung beeinflussen. Durch die Untersuchung von Token-Entropiemustern im Chain-of-Thought (CoT)-Schlussfolgerungsprozess stellen wir fest, dass nur ein kleiner Teil der Token eine hohe Entropie aufweist und dass diese Token als kritische Weichen fungieren, die das Modell auf verschiedene Schlussfolgerungspfade lenken. Darüber hinaus zeigt die Untersuchung der Entwicklung von Entropiemustern während des RLVR-Trainings, dass RLVR weitgehend den Entropiemustern des Basismodells folgt und hauptsächlich die Entropie der hoch entropischen Token anpasst. Diese Erkenntnisse unterstreichen die Bedeutung von hoch entropischen Token (d.h. Weichen-Token) für RLVR. Wir verbessern RLVR schließlich, indem wir die Policy-Gradient-Updates auf Weichen-Token beschränken, und entdecken eine Erkenntnis, die sogar über die 80/20-Regel hinausgeht: Die Verwendung von nur 20 % der Token führt zu einer Leistung, die vergleichbar ist mit vollständigen Gradienten-Updates beim Qwen3-8B-Basismodell und die vollständige Gradienten-Updates beim Qwen3-32B (+11,04 auf AIME'25 und +7,71 auf AIME'24) und Qwen3-14B (+4,79 auf AIME'25 und +5,21 auf AIME'24) Basismodellen deutlich übertrifft, was einen starken Skalierungstrend aufzeigt. Im Gegensatz dazu führt das Training ausschließlich mit den 80 % der Token mit der niedrigsten Entropie zu einem deutlichen Leistungsabfall. Diese Ergebnisse deuten darauf hin, dass die Wirksamkeit von RLVR hauptsächlich aus der Optimierung der hoch entropischen Token resultiert, die die Richtung der Schlussfolgerung bestimmen. Insgesamt unterstreichen unsere Ergebnisse das Potenzial, RLVR durch eine Token-Entropie-Perspektive zu verstehen und RLVR durch die Nutzung hoch entropischer Minderheits-Token weiter zu optimieren, um die logische Schlussfolgerung von LLMs weiter zu verbessern.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
powerful approach to enhancing the reasoning capabilities of Large Language
Models (LLMs), while its mechanisms are not yet well understood. In this work,
we undertake a pioneering exploration of RLVR through the novel perspective of
token entropy patterns, comprehensively analyzing how different tokens
influence reasoning performance. By examining token entropy patterns in
Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of
tokens exhibit high entropy, and these tokens act as critical forks that steer
the model toward diverse reasoning pathways. Furthermore, studying how entropy
patterns evolve during RLVR training reveals that RLVR largely adheres to the
base model's entropy patterns, primarily adjusting the entropy of high-entropy
tokens. These findings highlight the significance of high-entropy tokens (i.e.,
forking tokens) to RLVR. We ultimately improve RLVR by restricting policy
gradient updates to forking tokens and uncover a finding even beyond the 80/20
rule: utilizing only 20% of the tokens while maintaining performance comparable
to full-gradient updates on the Qwen3-8B base model and significantly
surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71
on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models,
highlighting a strong scaling trend. In contrast, training exclusively on the
80% lowest-entropy tokens leads to a marked decline in performance. These
findings indicate that the efficacy of RLVR primarily arises from optimizing
the high-entropy tokens that decide reasoning directions. Collectively, our
results highlight the potential to understand RLVR through a token-entropy
perspective and optimize RLVR by leveraging high-entropy minority tokens to
further improve LLM reasoning.