ChatPaper.aiChatPaper

Au-delà de la règle des 80/20 : les tokens minoritaires à haute entropie stimulent l'apprentissage par renforcement efficace pour le raisonnement des LLM

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

June 2, 2025
Auteurs: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
cs.AI

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est imposé comme une approche puissante pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), bien que ses mécanismes ne soient pas encore bien compris. Dans ce travail, nous entreprenons une exploration pionnière du RLVR à travers la perspective novatrice des motifs d'entropie des tokens, en analysant de manière exhaustive comment différents tokens influencent les performances de raisonnement. En examinant les motifs d'entropie des tokens dans le raisonnement en chaîne de pensée (CoT), nous observons que seule une petite fraction des tokens présente une entropie élevée, et que ces tokens agissent comme des bifurcations critiques qui orientent le modèle vers des voies de raisonnement diverses. De plus, l'étude de l'évolution des motifs d'entropie pendant l'entraînement RLVR révèle que le RLVR respecte largement les motifs d'entropie du modèle de base, ajustant principalement l'entropie des tokens à haute entropie. Ces résultats soulignent l'importance des tokens à haute entropie (c'est-à-dire les tokens de bifurcation) pour le RLVR. Nous améliorons finalement le RLVR en limitant les mises à jour du gradient de politique aux tokens de bifurcation et découvrons un résultat qui va même au-delà de la règle des 80/20 : en utilisant seulement 20 % des tokens tout en maintenant des performances comparables aux mises à jour de gradient complet sur le modèle de base Qwen3-8B et en surpassant significativement les mises à jour de gradient complet sur les modèles de base Qwen3-32B (+11,04 sur AIME'25 et +7,71 sur AIME'24) et Qwen3-14B (+4,79 sur AIME'25 et +5,21 sur AIME'24), mettant en évidence une forte tendance à l'échelle. En revanche, l'entraînement exclusivement sur les 80 % de tokens à plus faible entropie entraîne une baisse marquée des performances. Ces résultats indiquent que l'efficacité du RLVR découle principalement de l'optimisation des tokens à haute entropie qui déterminent les directions de raisonnement. Collectivement, nos résultats mettent en lumière le potentiel de comprendre le RLVR à travers une perspective d'entropie des tokens et d'optimiser le RLVR en exploitant les tokens minoritaires à haute entropie pour améliorer davantage le raisonnement des LLM.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful approach to enhancing the reasoning capabilities of Large Language Models (LLMs), while its mechanisms are not yet well understood. In this work, we undertake a pioneering exploration of RLVR through the novel perspective of token entropy patterns, comprehensively analyzing how different tokens influence reasoning performance. By examining token entropy patterns in Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of tokens exhibit high entropy, and these tokens act as critical forks that steer the model toward diverse reasoning pathways. Furthermore, studying how entropy patterns evolve during RLVR training reveals that RLVR largely adheres to the base model's entropy patterns, primarily adjusting the entropy of high-entropy tokens. These findings highlight the significance of high-entropy tokens (i.e., forking tokens) to RLVR. We ultimately improve RLVR by restricting policy gradient updates to forking tokens and uncover a finding even beyond the 80/20 rule: utilizing only 20% of the tokens while maintaining performance comparable to full-gradient updates on the Qwen3-8B base model and significantly surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71 on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models, highlighting a strong scaling trend. In contrast, training exclusively on the 80% lowest-entropy tokens leads to a marked decline in performance. These findings indicate that the efficacy of RLVR primarily arises from optimizing the high-entropy tokens that decide reasoning directions. Collectively, our results highlight the potential to understand RLVR through a token-entropy perspective and optimize RLVR by leveraging high-entropy minority tokens to further improve LLM reasoning.
PDF1293June 3, 2025