Más allá de la regla 80/20: Los tokens minoritarios de alta entropía impulsan el aprendizaje por refuerzo efectivo para el razonamiento en LLM.Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective
Reinforcement Learning for LLM Reasoning
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un enfoque poderoso para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs), aunque sus mecanismos aún no se comprenden bien. En este trabajo, emprendemos una exploración pionera de RLVR desde la novedosa perspectiva de los patrones de entropía de tokens, analizando exhaustivamente cómo diferentes tokens influyen en el rendimiento del razonamiento. Al examinar los patrones de entropía de tokens en el razonamiento en Cadena de Pensamiento (CoT), observamos que solo una pequeña fracción de tokens exhibe una entropía alta, y estos tokens actúan como puntos críticos que guían al modelo hacia diversas vías de razonamiento. Además, al estudiar cómo evolucionan los patrones de entropía durante el entrenamiento de RLVR, descubrimos que RLVR se adhiere en gran medida a los patrones de entropía del modelo base, ajustando principalmente la entropía de los tokens de alta entropía. Estos hallazgos resaltan la importancia de los tokens de alta entropía (es decir, tokens de bifurcación) para RLVR. Finalmente, mejoramos RLVR al restringir las actualizaciones del gradiente de política a los tokens de bifurcación y descubrimos un hallazgo que va más allá de la regla 80/20: utilizando solo el 20% de los tokens mientras se mantiene un rendimiento comparable a las actualizaciones de gradiente completo en el modelo base Qwen3-8B y superando significativamente las actualizaciones de gradiente completo en los modelos base Qwen3-32B (+11.04 en AIME'25 y +7.71 en AIME'24) y Qwen3-14B (+4.79 en AIME'25 y +5.21 en AIME'24), destacando una fuerte tendencia de escalabilidad. En contraste, entrenar exclusivamente con el 80% de los tokens de menor entropía conduce a una marcada disminución en el rendimiento. Estos hallazgos indican que la eficacia de RLVR surge principalmente de la optimización de los tokens de alta entropía que deciden las direcciones de razonamiento. En conjunto, nuestros resultados resaltan el potencial de comprender RLVR a través de una perspectiva de entropía de tokens y optimizar RLVR aprovechando los tokens minoritarios de alta entropía para mejorar aún más el razonamiento de los LLMs.