ChatPaper.aiChatPaper

Voorbij de 80/20-regel: Hoog-entropie minderheidstokens sturen effectieve reinforcement learning aan voor LLM-redenering

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

June 2, 2025
Auteurs: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
cs.AI

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een krachtige benadering om de redeneervaardigheden van Grote Taalmodellen (LLMs) te verbeteren, hoewel de onderliggende mechanismen nog niet goed worden begrepen. In dit werk ondernemen we een baanbrekende verkenning van RLVR vanuit het nieuwe perspectief van token-entropiepatronen, waarbij we uitgebreid analyseren hoe verschillende tokens de redeneerprestaties beïnvloeden. Door token-entropiepatronen in Chain-of-Thought (CoT)-redenering te onderzoeken, observeren we dat slechts een klein deel van de tokens een hoge entropie vertoont, en dat deze tokens fungeren als kritieke splitsingen die het model naar diverse redeneerpaden sturen. Bovendien laat de studie van hoe entropiepatronen evolueren tijdens RLVR-training zien dat RLVR grotendeels de entropiepatronen van het basismodel volgt, waarbij voornamelijk de entropie van tokens met hoge entropie wordt aangepast. Deze bevindingen benadrukken het belang van tokens met hoge entropie (d.w.z. splitsingstokens) voor RLVR. We verbeteren RLVR uiteindelijk door policy gradient-updates te beperken tot splitsingstokens en ontdekken een bevinding die zelfs verder gaat dan de 80/20-regel: door slechts 20% van de tokens te gebruiken, behouden we prestaties die vergelijkbaar zijn met volledige gradient-updates op het Qwen3-8B basismodel en overtreffen we deze aanzienlijk op de Qwen3-32B (+11.04 op AIME'25 en +7.71 op AIME'24) en Qwen3-14B (+4.79 op AIME'25 en +5.21 op AIME'24) basismodellen, wat een sterke schaalbaarheidstrend benadrukt. Daarentegen leidt training uitsluitend op de 80% tokens met de laagste entropie tot een aanzienlijke daling in prestaties. Deze bevindingen geven aan dat de effectiviteit van RLVR voornamelijk voortkomt uit het optimaliseren van de tokens met hoge entropie die de redeneerrichtingen bepalen. Collectief benadrukken onze resultaten het potentieel om RLVR te begrijpen vanuit een token-entropieperspectief en RLVR te optimaliseren door gebruik te maken van tokens met hoge entropie om de redeneervaardigheden van LLMs verder te verbeteren.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful approach to enhancing the reasoning capabilities of Large Language Models (LLMs), while its mechanisms are not yet well understood. In this work, we undertake a pioneering exploration of RLVR through the novel perspective of token entropy patterns, comprehensively analyzing how different tokens influence reasoning performance. By examining token entropy patterns in Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of tokens exhibit high entropy, and these tokens act as critical forks that steer the model toward diverse reasoning pathways. Furthermore, studying how entropy patterns evolve during RLVR training reveals that RLVR largely adheres to the base model's entropy patterns, primarily adjusting the entropy of high-entropy tokens. These findings highlight the significance of high-entropy tokens (i.e., forking tokens) to RLVR. We ultimately improve RLVR by restricting policy gradient updates to forking tokens and uncover a finding even beyond the 80/20 rule: utilizing only 20% of the tokens while maintaining performance comparable to full-gradient updates on the Qwen3-8B base model and significantly surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71 on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models, highlighting a strong scaling trend. In contrast, training exclusively on the 80% lowest-entropy tokens leads to a marked decline in performance. These findings indicate that the efficacy of RLVR primarily arises from optimizing the high-entropy tokens that decide reasoning directions. Collectively, our results highlight the potential to understand RLVR through a token-entropy perspective and optimize RLVR by leveraging high-entropy minority tokens to further improve LLM reasoning.
PDF1544June 3, 2025