Além da Regra 80/20: Tokens Minoritários de Alta Entropia Impulsionam o Aprendizado por Reforço Eficaz para o Raciocínio de LLMsBeyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective
Reinforcement Learning for LLM Reasoning
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como uma abordagem poderosa para aprimorar as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs), embora seus mecanismos ainda não sejam bem compreendidos. Neste trabalho, realizamos uma exploração pioneira do RLVR através da nova perspectiva dos padrões de entropia de tokens, analisando de forma abrangente como diferentes tokens influenciam o desempenho do raciocínio. Ao examinar os padrões de entropia de tokens no raciocínio em Cadeia de Pensamento (CoT), observamos que apenas uma pequena fração dos tokens exibe alta entropia, e esses tokens atuam como pontos críticos que direcionam o modelo para diversos caminhos de raciocínio. Além disso, ao estudar como os padrões de entropia evoluem durante o treinamento do RLVR, descobrimos que o RLVR segue amplamente os padrões de entropia do modelo base, ajustando principalmente a entropia dos tokens de alta entropia. Essas descobertas destacam a importância dos tokens de alta entropia (ou seja, tokens de bifurcação) para o RLVR. Por fim, aprimoramos o RLVR ao restringir as atualizações do gradiente de política aos tokens de bifurcação e descobrimos um achado que vai além da regra 80/20: utilizando apenas 20% dos tokens, mantemos um desempenho comparável às atualizações de gradiente completo no modelo base Qwen3-8B e superamos significativamente as atualizações de gradiente completo nos modelos base Qwen3-32B (+11,04 no AIME'25 e +7,71 no AIME'24) e Qwen3-14B (+4,79 no AIME'25 e +5,21 no AIME'24), destacando uma forte tendência de escalabilidade. Em contraste, o treinamento exclusivo nos 80% dos tokens de menor entropia resulta em uma queda acentuada no desempenho. Esses achados indicam que a eficácia do RLVR surge principalmente da otimização dos tokens de alta entropia que decidem as direções do raciocínio. Coletivamente, nossos resultados destacam o potencial de compreender o RLVR através de uma perspectiva de entropia de tokens e otimizar o RLVR ao aproveitar os tokens minoritários de alta entropia para melhorar ainda mais o raciocínio dos LLMs.