Más allá de la regla 80/20: Los tokens minoritarios de alta entropía impulsan el aprendizaje por refuerzo efectivo para el razonamiento en LLM.
Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
June 2, 2025
Autores: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un enfoque poderoso para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs), aunque sus mecanismos aún no se comprenden bien. En este trabajo, emprendemos una exploración pionera de RLVR desde la novedosa perspectiva de los patrones de entropía de tokens, analizando exhaustivamente cómo diferentes tokens influyen en el rendimiento del razonamiento. Al examinar los patrones de entropía de tokens en el razonamiento en Cadena de Pensamiento (CoT), observamos que solo una pequeña fracción de tokens exhibe una entropía alta, y estos tokens actúan como puntos críticos que guían al modelo hacia diversas vías de razonamiento. Además, al estudiar cómo evolucionan los patrones de entropía durante el entrenamiento de RLVR, descubrimos que RLVR se adhiere en gran medida a los patrones de entropía del modelo base, ajustando principalmente la entropía de los tokens de alta entropía. Estos hallazgos resaltan la importancia de los tokens de alta entropía (es decir, tokens de bifurcación) para RLVR. Finalmente, mejoramos RLVR al restringir las actualizaciones del gradiente de política a los tokens de bifurcación y descubrimos un hallazgo que va más allá de la regla 80/20: utilizando solo el 20% de los tokens mientras se mantiene un rendimiento comparable a las actualizaciones de gradiente completo en el modelo base Qwen3-8B y superando significativamente las actualizaciones de gradiente completo en los modelos base Qwen3-32B (+11.04 en AIME'25 y +7.71 en AIME'24) y Qwen3-14B (+4.79 en AIME'25 y +5.21 en AIME'24), destacando una fuerte tendencia de escalabilidad. En contraste, entrenar exclusivamente con el 80% de los tokens de menor entropía conduce a una marcada disminución en el rendimiento. Estos hallazgos indican que la eficacia de RLVR surge principalmente de la optimización de los tokens de alta entropía que deciden las direcciones de razonamiento. En conjunto, nuestros resultados resaltan el potencial de comprender RLVR a través de una perspectiva de entropía de tokens y optimizar RLVR aprovechando los tokens minoritarios de alta entropía para mejorar aún más el razonamiento de los LLMs.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
powerful approach to enhancing the reasoning capabilities of Large Language
Models (LLMs), while its mechanisms are not yet well understood. In this work,
we undertake a pioneering exploration of RLVR through the novel perspective of
token entropy patterns, comprehensively analyzing how different tokens
influence reasoning performance. By examining token entropy patterns in
Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of
tokens exhibit high entropy, and these tokens act as critical forks that steer
the model toward diverse reasoning pathways. Furthermore, studying how entropy
patterns evolve during RLVR training reveals that RLVR largely adheres to the
base model's entropy patterns, primarily adjusting the entropy of high-entropy
tokens. These findings highlight the significance of high-entropy tokens (i.e.,
forking tokens) to RLVR. We ultimately improve RLVR by restricting policy
gradient updates to forking tokens and uncover a finding even beyond the 80/20
rule: utilizing only 20% of the tokens while maintaining performance comparable
to full-gradient updates on the Qwen3-8B base model and significantly
surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71
on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models,
highlighting a strong scaling trend. In contrast, training exclusively on the
80% lowest-entropy tokens leads to a marked decline in performance. These
findings indicate that the efficacy of RLVR primarily arises from optimizing
the high-entropy tokens that decide reasoning directions. Collectively, our
results highlight the potential to understand RLVR through a token-entropy
perspective and optimize RLVR by leveraging high-entropy minority tokens to
further improve LLM reasoning.