ChatPaper.aiChatPaper

Além da Regra 80/20: Tokens Minoritários de Alta Entropia Impulsionam o Aprendizado por Reforço Eficaz para o Raciocínio de LLMs

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

June 2, 2025
Autores: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
cs.AI

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como uma abordagem poderosa para aprimorar as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs), embora seus mecanismos ainda não sejam bem compreendidos. Neste trabalho, realizamos uma exploração pioneira do RLVR através da nova perspectiva dos padrões de entropia de tokens, analisando de forma abrangente como diferentes tokens influenciam o desempenho do raciocínio. Ao examinar os padrões de entropia de tokens no raciocínio em Cadeia de Pensamento (CoT), observamos que apenas uma pequena fração dos tokens exibe alta entropia, e esses tokens atuam como pontos críticos que direcionam o modelo para diversos caminhos de raciocínio. Além disso, ao estudar como os padrões de entropia evoluem durante o treinamento do RLVR, descobrimos que o RLVR segue amplamente os padrões de entropia do modelo base, ajustando principalmente a entropia dos tokens de alta entropia. Essas descobertas destacam a importância dos tokens de alta entropia (ou seja, tokens de bifurcação) para o RLVR. Por fim, aprimoramos o RLVR ao restringir as atualizações do gradiente de política aos tokens de bifurcação e descobrimos um achado que vai além da regra 80/20: utilizando apenas 20% dos tokens, mantemos um desempenho comparável às atualizações de gradiente completo no modelo base Qwen3-8B e superamos significativamente as atualizações de gradiente completo nos modelos base Qwen3-32B (+11,04 no AIME'25 e +7,71 no AIME'24) e Qwen3-14B (+4,79 no AIME'25 e +5,21 no AIME'24), destacando uma forte tendência de escalabilidade. Em contraste, o treinamento exclusivo nos 80% dos tokens de menor entropia resulta em uma queda acentuada no desempenho. Esses achados indicam que a eficácia do RLVR surge principalmente da otimização dos tokens de alta entropia que decidem as direções do raciocínio. Coletivamente, nossos resultados destacam o potencial de compreender o RLVR através de uma perspectiva de entropia de tokens e otimizar o RLVR ao aproveitar os tokens minoritários de alta entropia para melhorar ainda mais o raciocínio dos LLMs.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful approach to enhancing the reasoning capabilities of Large Language Models (LLMs), while its mechanisms are not yet well understood. In this work, we undertake a pioneering exploration of RLVR through the novel perspective of token entropy patterns, comprehensively analyzing how different tokens influence reasoning performance. By examining token entropy patterns in Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of tokens exhibit high entropy, and these tokens act as critical forks that steer the model toward diverse reasoning pathways. Furthermore, studying how entropy patterns evolve during RLVR training reveals that RLVR largely adheres to the base model's entropy patterns, primarily adjusting the entropy of high-entropy tokens. These findings highlight the significance of high-entropy tokens (i.e., forking tokens) to RLVR. We ultimately improve RLVR by restricting policy gradient updates to forking tokens and uncover a finding even beyond the 80/20 rule: utilizing only 20% of the tokens while maintaining performance comparable to full-gradient updates on the Qwen3-8B base model and significantly surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71 on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models, highlighting a strong scaling trend. In contrast, training exclusively on the 80% lowest-entropy tokens leads to a marked decline in performance. These findings indicate that the efficacy of RLVR primarily arises from optimizing the high-entropy tokens that decide reasoning directions. Collectively, our results highlight the potential to understand RLVR through a token-entropy perspective and optimize RLVR by leveraging high-entropy minority tokens to further improve LLM reasoning.
PDF1544June 3, 2025