Энтропийный механизм обучения с подкреплением для языковых моделей рассуждений
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
May 28, 2025
Авторы: Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding
cs.AI
Аннотация
Данная работа направлена на преодоление ключевого препятствия в масштабировании обучения с подкреплением (RL) для задач рассуждений с использованием больших языковых моделей (LLM), а именно коллапса энтропии политики. Это явление последовательно наблюдается в ходе обширных экспериментов с RL без вмешательства в энтропию, где энтропия политики резко снижается на ранних этапах обучения, что сопровождается насыщением производительности политики. На практике мы устанавливаем преобразовательное уравнение R=-a*e^H+b между энтропией H и итоговой производительностью R. Этот эмпирический закон явно указывает на то, что производительность политики достигается за счет энтропии, что ограничивается её истощением, а верхний предел полностью предсказуем: H=0, R=-a+b. Наше открытие подчеркивает необходимость управления энтропией для обеспечения непрерывного исследования в контексте масштабирования вычислительных ресурсов для RL. С этой целью мы исследуем динамику энтропии как теоретически, так и эмпирически. Наш вывод подчеркивает, что изменение энтропии политики обусловлено ковариацией между вероятностью действия и изменением логарифмических значений, что пропорционально её преимуществу при использовании алгоритмов, подобных Policy Gradient. Эмпирическое исследование показывает, что значения ковариационного члена и разницы энтропий точно совпадают, что подтверждает теоретический вывод. Более того, ковариационный член остается преимущественно положительным на протяжении всего обучения, что дополнительно объясняет, почему энтропия политики снижается монотонно. Понимая механизм, лежащий в основе динамики энтропии, мы предлагаем управлять энтропией, ограничивая обновление токенов с высокой ковариацией. В частности, мы предлагаем два простых, но эффективных метода: Clip-Cov и KL-Cov, которые соответственно ограничивают и применяют штраф KL к токенам с высокой ковариацией. Эксперименты показывают, что эти методы стимулируют исследование, помогая политике избежать коллапса энтропии и достичь лучшей итоговой производительности.
English
This paper aims to overcome a major obstacle in scaling RL for reasoning with
LLMs, namely the collapse of policy entropy. Such phenomenon is consistently
observed across vast RL runs without entropy intervention, where the policy
entropy dropped sharply at the early training stage, this diminished
exploratory ability is always accompanied with the saturation of policy
performance. In practice, we establish a transformation equation R=-a*e^H+b
between entropy H and downstream performance R. This empirical law strongly
indicates that, the policy performance is traded from policy entropy, thus
bottlenecked by its exhaustion, and the ceiling is fully predictable H=0,
R=-a+b. Our finding necessitates entropy management for continuous exploration
toward scaling compute for RL. To this end, we investigate entropy dynamics
both theoretically and empirically. Our derivation highlights that, the change
in policy entropy is driven by the covariance between action probability and
the change in logits, which is proportional to its advantage when using Policy
Gradient-like algorithms. Empirical study shows that, the values of covariance
term and entropy differences matched exactly, supporting the theoretical
conclusion. Moreover, the covariance term stays mostly positive throughout
training, further explaining why policy entropy would decrease monotonically.
Through understanding the mechanism behind entropy dynamics, we motivate to
control entropy by restricting the update of high-covariance tokens.
Specifically, we propose two simple yet effective techniques, namely Clip-Cov
and KL-Cov, which clip and apply KL penalty to tokens with high covariances
respectively. Experiments show that these methods encourage exploration, thus
helping policy escape entropy collapse and achieve better downstream
performance.Summary
AI-Generated Summary