ChatPaper.aiChatPaper

Más allá de la regla 80/20: Los tokens minoritarios de alta entropía impulsan el aprendizaje por refuerzo efectivo para el razonamiento en LLM.

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

June 2, 2025
Autores: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un enfoque poderoso para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs), aunque sus mecanismos aún no se comprenden bien. En este trabajo, emprendemos una exploración pionera de RLVR desde la novedosa perspectiva de los patrones de entropía de tokens, analizando exhaustivamente cómo diferentes tokens influyen en el rendimiento del razonamiento. Al examinar los patrones de entropía de tokens en el razonamiento en Cadena de Pensamiento (CoT), observamos que solo una pequeña fracción de tokens exhibe una entropía alta, y estos tokens actúan como puntos críticos que guían al modelo hacia diversas vías de razonamiento. Además, al estudiar cómo evolucionan los patrones de entropía durante el entrenamiento de RLVR, descubrimos que RLVR se adhiere en gran medida a los patrones de entropía del modelo base, ajustando principalmente la entropía de los tokens de alta entropía. Estos hallazgos resaltan la importancia de los tokens de alta entropía (es decir, tokens de bifurcación) para RLVR. Finalmente, mejoramos RLVR al restringir las actualizaciones del gradiente de política a los tokens de bifurcación y descubrimos un hallazgo que va más allá de la regla 80/20: utilizando solo el 20% de los tokens mientras se mantiene un rendimiento comparable a las actualizaciones de gradiente completo en el modelo base Qwen3-8B y superando significativamente las actualizaciones de gradiente completo en los modelos base Qwen3-32B (+11.04 en AIME'25 y +7.71 en AIME'24) y Qwen3-14B (+4.79 en AIME'25 y +5.21 en AIME'24), destacando una fuerte tendencia de escalabilidad. En contraste, entrenar exclusivamente con el 80% de los tokens de menor entropía conduce a una marcada disminución en el rendimiento. Estos hallazgos indican que la eficacia de RLVR surge principalmente de la optimización de los tokens de alta entropía que deciden las direcciones de razonamiento. En conjunto, nuestros resultados resaltan el potencial de comprender RLVR a través de una perspectiva de entropía de tokens y optimizar RLVR aprovechando los tokens minoritarios de alta entropía para mejorar aún más el razonamiento de los LLMs.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful approach to enhancing the reasoning capabilities of Large Language Models (LLMs), while its mechanisms are not yet well understood. In this work, we undertake a pioneering exploration of RLVR through the novel perspective of token entropy patterns, comprehensively analyzing how different tokens influence reasoning performance. By examining token entropy patterns in Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of tokens exhibit high entropy, and these tokens act as critical forks that steer the model toward diverse reasoning pathways. Furthermore, studying how entropy patterns evolve during RLVR training reveals that RLVR largely adheres to the base model's entropy patterns, primarily adjusting the entropy of high-entropy tokens. These findings highlight the significance of high-entropy tokens (i.e., forking tokens) to RLVR. We ultimately improve RLVR by restricting policy gradient updates to forking tokens and uncover a finding even beyond the 80/20 rule: utilizing only 20% of the tokens while maintaining performance comparable to full-gradient updates on the Qwen3-8B base model and significantly surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71 on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models, highlighting a strong scaling trend. In contrast, training exclusively on the 80% lowest-entropy tokens leads to a marked decline in performance. These findings indicate that the efficacy of RLVR primarily arises from optimizing the high-entropy tokens that decide reasoning directions. Collectively, our results highlight the potential to understand RLVR through a token-entropy perspective and optimize RLVR by leveraging high-entropy minority tokens to further improve LLM reasoning.
PDF1293June 3, 2025