ChatPaper.aiChatPaper

Oltre la regola 80/20: i token minoritari ad alta entropia guidano un apprendimento per rinforzo efficace per il ragionamento nei LLM

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

June 2, 2025
Autori: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
cs.AI

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un approccio potente per migliorare le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM), sebbene i suoi meccanismi non siano ancora ben compresi. In questo lavoro, intraprendiamo un'esplorazione pionieristica dell'RLVR attraverso la nuova prospettiva dei modelli di entropia dei token, analizzando in modo completo come diversi token influenzano le prestazioni di ragionamento. Esaminando i modelli di entropia dei token nel ragionamento a Catena di Pensiero (CoT), osserviamo che solo una piccola frazione di token presenta un'elevata entropia, e questi token agiscono come punti critici di biforcazione che indirizzano il modello verso percorsi di ragionamento diversi. Inoltre, studiando come i modelli di entropia evolvono durante l'addestramento RLVR, scopriamo che l'RLVR si attiene in gran parte ai modelli di entropia del modello di base, regolando principalmente l'entropia dei token ad alta entropia. Questi risultati evidenziano l'importanza dei token ad alta entropia (cioè, i token di biforcazione) per l'RLVR. Alla fine, miglioriamo l'RLVR limitando gli aggiornamenti del gradiente della politica ai token di biforcazione e scopriamo un risultato che va persino oltre la regola dell'80/20: utilizzando solo il 20% dei token mentre si mantengono prestazioni comparabili agli aggiornamenti a gradiente completo sul modello di base Qwen3-8B e superando significativamente gli aggiornamenti a gradiente completo sui modelli di base Qwen3-32B (+11,04 su AIME'25 e +7,71 su AIME'24) e Qwen3-14B (+4,79 su AIME'25 e +5,21 su AIME'24), evidenziando una forte tendenza alla scalabilità. Al contrario, l'addestramento esclusivo sull'80% dei token a più bassa entropia porta a un marcato declino delle prestazioni. Questi risultati indicano che l'efficacia dell'RLVR deriva principalmente dall'ottimizzazione dei token ad alta entropia che decidono le direzioni di ragionamento. Collettivamente, i nostri risultati evidenziano il potenziale di comprendere l'RLVR attraverso una prospettiva di entropia dei token e di ottimizzare l'RLVR sfruttando i token minoritari ad alta entropia per migliorare ulteriormente il ragionamento degli LLM.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful approach to enhancing the reasoning capabilities of Large Language Models (LLMs), while its mechanisms are not yet well understood. In this work, we undertake a pioneering exploration of RLVR through the novel perspective of token entropy patterns, comprehensively analyzing how different tokens influence reasoning performance. By examining token entropy patterns in Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of tokens exhibit high entropy, and these tokens act as critical forks that steer the model toward diverse reasoning pathways. Furthermore, studying how entropy patterns evolve during RLVR training reveals that RLVR largely adheres to the base model's entropy patterns, primarily adjusting the entropy of high-entropy tokens. These findings highlight the significance of high-entropy tokens (i.e., forking tokens) to RLVR. We ultimately improve RLVR by restricting policy gradient updates to forking tokens and uncover a finding even beyond the 80/20 rule: utilizing only 20% of the tokens while maintaining performance comparable to full-gradient updates on the Qwen3-8B base model and significantly surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71 on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models, highlighting a strong scaling trend. In contrast, training exclusively on the 80% lowest-entropy tokens leads to a marked decline in performance. These findings indicate that the efficacy of RLVR primarily arises from optimizing the high-entropy tokens that decide reasoning directions. Collectively, our results highlight the potential to understand RLVR through a token-entropy perspective and optimize RLVR by leveraging high-entropy minority tokens to further improve LLM reasoning.
PDF1846June 3, 2025