За пределами правила 80/20: Высокоэнтропийные миноритарные токены способствуют эффективному обучению с подкреплением для рассуждений в больших языковых моделях
Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
June 2, 2025
Авторы: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало мощным подходом для улучшения способностей к рассуждению у крупных языковых моделей (LLM), хотя его механизмы пока недостаточно изучены. В данной работе мы предпринимаем новаторское исследование RLVR через новую перспективу паттернов энтропии токенов, всесторонне анализируя, как различные токены влияют на производительность рассуждений. Изучая паттерны энтропии токенов в цепочке рассуждений (CoT), мы наблюдаем, что лишь небольшая часть токенов демонстрирует высокую энтропию, и эти токены выступают в качестве критических точек ветвления, направляющих модель по различным путям рассуждений. Кроме того, исследование того, как паттерны энтропии изменяются в процессе обучения RLVR, показывает, что RLVR в значительной степени сохраняет паттерны энтропии базовой модели, в основном корректируя энтропию высокоэнтропийных токенов. Эти результаты подчеркивают значимость высокоэнтропийных токенов (т.е. токенов ветвления) для RLVR. В конечном итоге мы улучшаем RLVR, ограничивая обновления градиента политики токенами ветвления, и обнаруживаем результат, выходящий за рамки правила 80/20: использование всего 20% токенов при сохранении производительности, сопоставимой с полными обновлениями градиента на базовой модели Qwen3-8B, и значительное превосходство над полными обновлениями градиента на моделях Qwen3-32B (+11.04 на AIME'25 и +7.71 на AIME'24) и Qwen3-14B (+4.79 на AIME'25 и +5.21 на AIME'24), что указывает на сильную тенденцию к масштабированию. В то же время обучение исключительно на 80% токенов с наименьшей энтропией приводит к заметному снижению производительности. Эти результаты свидетельствуют о том, что эффективность RLVR в основном обусловлена оптимизацией высокоэнтропийных токенов, которые определяют направления рассуждений. В совокупности наши результаты подчеркивают потенциал понимания RLVR через призму энтропии токенов и оптимизации RLVR за счет использования высокоэнтропийных токенов меньшинства для дальнейшего улучшения рассуждений LLM.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
powerful approach to enhancing the reasoning capabilities of Large Language
Models (LLMs), while its mechanisms are not yet well understood. In this work,
we undertake a pioneering exploration of RLVR through the novel perspective of
token entropy patterns, comprehensively analyzing how different tokens
influence reasoning performance. By examining token entropy patterns in
Chain-of-Thought (CoT) reasoning, we observe that only a small fraction of
tokens exhibit high entropy, and these tokens act as critical forks that steer
the model toward diverse reasoning pathways. Furthermore, studying how entropy
patterns evolve during RLVR training reveals that RLVR largely adheres to the
base model's entropy patterns, primarily adjusting the entropy of high-entropy
tokens. These findings highlight the significance of high-entropy tokens (i.e.,
forking tokens) to RLVR. We ultimately improve RLVR by restricting policy
gradient updates to forking tokens and uncover a finding even beyond the 80/20
rule: utilizing only 20% of the tokens while maintaining performance comparable
to full-gradient updates on the Qwen3-8B base model and significantly
surpassing full-gradient updates on the Qwen3-32B (+11.04 on AIME'25 and +7.71
on AIME'24) and Qwen3-14B (+4.79 on AIME'25 and +5.21 on AIME'24) base models,
highlighting a strong scaling trend. In contrast, training exclusively on the
80% lowest-entropy tokens leads to a marked decline in performance. These
findings indicate that the efficacy of RLVR primarily arises from optimizing
the high-entropy tokens that decide reasoning directions. Collectively, our
results highlight the potential to understand RLVR through a token-entropy
perspective and optimize RLVR by leveraging high-entropy minority tokens to
further improve LLM reasoning.