Oltre la regola 80/20: i token minoritari ad alta entropia guidano un apprendimento per rinforzo efficace per il ragionamento nei LLM
Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
June 2, 2025
Autori: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un approccio potente per migliorare le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM), sebbene i suoi meccanismi non siano ancora ben compresi. In questo lavoro, intraprendiamo un'esplorazione pionieristica dell'RLVR attraverso la nuova prospettiva dei modelli di entropia dei token, analizzando in modo completo come diversi token influenzano le prestazioni di ragionamento. Esaminando i modelli di entropia dei token nel ragionamento a Catena di Pensiero (CoT), osserviamo che solo una piccola frazione di token presenta un'elevata entropia, e questi token agiscono come punti critici di biforcazione che indirizzano il modello verso percorsi di ragionamento diversi. Inoltre, studiando come i modelli di entropia evolvono durante l'addestramento RLVR, scopriamo che l'RLVR si attiene in gran parte ai modelli di entropia del modello di base, regolando principalmente l'entropia dei token ad alta entropia. Questi risultati evidenziano l'importanza dei token ad alta entropia (cioè, i token di biforcazione) per l'RLVR. Alla fine, miglioriamo l'RLVR limitando gli aggiornamenti del gradiente della politica ai token di biforcazione e scopriamo un risultato che va persino oltre la regola dell'80/20: utilizzando solo il 20% dei token mentre si mantengono prestazioni comparabili agli aggiornamenti a gradiente completo sul modello di base Qwen3-8B e superando significativamente gli aggiornamenti a gradiente completo sui modelli di base Qwen3-32B (+11,04 su AIME'25 e +7,71 su AIME'24) e Qwen3-14B (+4,79 su AIME'25 e +5,21 su AIME'24), evidenziando una forte tendenza alla scalabilità. Al contrario, l'addestramento esclusivo sull'80% dei token a più bassa entropia porta a un marcato declino delle prestazioni. Questi risultati indicano che l'efficacia dell'RLVR deriva principalmente dall'ottimizzazione dei token ad alta entropia che decidono le direzioni di ragionamento. Collettivamente, i nostri risultati evidenziano il potenziale di comprendere l'RLVR attraverso una prospettiva di entropia dei token e di ottimizzare l'RLVR sfruttando i token minoritari ad alta entropia per migliorare ulteriormente il ragionamento degli LLM.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
powerful approach to enhancing the reasoning capabilities of Large Language
Models (LLMs), while its mechanisms are not yet well understood. In this work,
we undertake a pioneering exploration of RLVR through the novel perspective of
token entropy patterns, comprehensively analyzing how different tokens
influence reasoning performance. By examining token entropy patterns in
Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of
tokens exhibit high entropy, and these tokens act as critical forks that steer
the model toward diverse reasoning pathways. Furthermore, studying how entropy
patterns evolve during RLVR training reveals that RLVR largely adheres to the
base model's entropy patterns, primarily adjusting the entropy of high-entropy
tokens. These findings highlight the significance of high-entropy tokens (i.e.,
forking tokens) to RLVR. We ultimately improve RLVR by restricting policy
gradient updates to forking tokens and uncover a finding even beyond the 80/20
rule: utilizing only 20% of the tokens while maintaining performance comparable
to full-gradient updates on the Qwen3-8B base model and significantly
surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71
on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models,
highlighting a strong scaling trend. In contrast, training exclusively on the
80% lowest-entropy tokens leads to a marked decline in performance. These
findings indicate that the efficacy of RLVR primarily arises from optimizing
the high-entropy tokens that decide reasoning directions. Collectively, our
results highlight the potential to understand RLVR through a token-entropy
perspective and optimize RLVR by leveraging high-entropy minority tokens to
further improve LLM reasoning.