Au-delà de la règle des 80/20 : les tokens minoritaires à haute entropie
stimulent l'apprentissage par renforcement efficace pour le raisonnement des LLMBeyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective
Reinforcement Learning for LLM Reasoning
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est imposé comme une approche puissante pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), bien que ses mécanismes ne soient pas encore bien compris. Dans ce travail, nous entreprenons une exploration pionnière du RLVR à travers la perspective novatrice des motifs d'entropie des tokens, en analysant de manière exhaustive comment différents tokens influencent les performances de raisonnement. En examinant les motifs d'entropie des tokens dans le raisonnement en chaîne de pensée (CoT), nous observons que seule une petite fraction des tokens présente une entropie élevée, et que ces tokens agissent comme des bifurcations critiques qui orientent le modèle vers des voies de raisonnement diverses. De plus, l'étude de l'évolution des motifs d'entropie pendant l'entraînement RLVR révèle que le RLVR respecte largement les motifs d'entropie du modèle de base, ajustant principalement l'entropie des tokens à haute entropie. Ces résultats soulignent l'importance des tokens à haute entropie (c'est-à-dire les tokens de bifurcation) pour le RLVR. Nous améliorons finalement le RLVR en limitant les mises à jour du gradient de politique aux tokens de bifurcation et découvrons un résultat qui va même au-delà de la règle des 80/20 : en utilisant seulement 20 % des tokens tout en maintenant des performances comparables aux mises à jour de gradient complet sur le modèle de base Qwen3-8B et en surpassant significativement les mises à jour de gradient complet sur les modèles de base Qwen3-32B (+11,04 sur AIME'25 et +7,71 sur AIME'24) et Qwen3-14B (+4,79 sur AIME'25 et +5,21 sur AIME'24), mettant en évidence une forte tendance à l'échelle. En revanche, l'entraînement exclusivement sur les 80 % de tokens à plus faible entropie entraîne une baisse marquée des performances. Ces résultats indiquent que l'efficacité du RLVR découle principalement de l'optimisation des tokens à haute entropie qui déterminent les directions de raisonnement. Collectivement, nos résultats mettent en lumière le potentiel de comprendre le RLVR à travers une perspective d'entropie des tokens et d'optimiser le RLVR en exploitant les tokens minoritaires à haute entropie pour améliorer davantage le raisonnement des LLM.