За пределами правила 80/20: Высокоэнтропийные миноритарные токены способствуют эффективному обучению с подкреплением для рассуждений в больших языковых моделяхBeyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective
Reinforcement Learning for LLM Reasoning
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало мощным подходом для улучшения способностей к рассуждению у крупных языковых моделей (LLM), хотя его механизмы пока недостаточно изучены. В данной работе мы предпринимаем новаторское исследование RLVR через новую перспективу паттернов энтропии токенов, всесторонне анализируя, как различные токены влияют на производительность рассуждений. Изучая паттерны энтропии токенов в цепочке рассуждений (CoT), мы наблюдаем, что лишь небольшая часть токенов демонстрирует высокую энтропию, и эти токены выступают в качестве критических точек ветвления, направляющих модель по различным путям рассуждений. Кроме того, исследование того, как паттерны энтропии изменяются в процессе обучения RLVR, показывает, что RLVR в значительной степени сохраняет паттерны энтропии базовой модели, в основном корректируя энтропию высокоэнтропийных токенов. Эти результаты подчеркивают значимость высокоэнтропийных токенов (т.е. токенов ветвления) для RLVR. В конечном итоге мы улучшаем RLVR, ограничивая обновления градиента политики токенами ветвления, и обнаруживаем результат, выходящий за рамки правила 80/20: использование всего 20% токенов при сохранении производительности, сопоставимой с полными обновлениями градиента на базовой модели Qwen3-8B, и значительное превосходство над полными обновлениями градиента на моделях Qwen3-32B (+11.04 на AIME'25 и +7.71 на AIME'24) и Qwen3-14B (+4.79 на AIME'25 и +5.21 на AIME'24), что указывает на сильную тенденцию к масштабированию. В то же время обучение исключительно на 80% токенов с наименьшей энтропией приводит к заметному снижению производительности. Эти результаты свидетельствуют о том, что эффективность RLVR в основном обусловлена оптимизацией высокоэнтропийных токенов, которые определяют направления рассуждений. В совокупности наши результаты подчеркивают потенциал понимания RLVR через призму энтропии токенов и оптимизации RLVR за счет использования высокоэнтропийных токенов меньшинства для дальнейшего улучшения рассуждений LLM.