O Mecanismo de Entropia do Aprendizado por Reforço para Modelos de Linguagem de Raciocínio
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
May 28, 2025
Autores: Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding
cs.AI
Resumo
Este artigo visa superar um grande obstáculo na escalabilidade do Aprendizado por Reforço (RL) para raciocínio com Modelos de Linguagem de Grande Escala (LLMs), especificamente o colapso da entropia da política. Esse fenômeno é consistentemente observado em diversas execuções de RL sem intervenção de entropia, onde a entropia da política cai drasticamente no estágio inicial de treinamento. Essa diminuição da capacidade exploratória é sempre acompanhada pela saturação do desempenho da política. Na prática, estabelecemos uma equação de transformação R=-a*e^H+b entre a entropia H e o desempenho subsequente R. Essa lei empírica indica fortemente que o desempenho da política é negociado em troca da entropia da política, sendo assim limitado por seu esgotamento, e o limite máximo é totalmente previsível quando H=0, resultando em R=-a+b. Nossa descoberta exige o gerenciamento da entropia para uma exploração contínua visando escalar o poder computacional para RL. Para tanto, investigamos a dinâmica da entropia tanto teoricamente quanto empiricamente. Nossa derivação destaca que a mudança na entropia da política é impulsionada pela covariância entre a probabilidade da ação e a mudança nos logits, que é proporcional à sua vantagem ao usar algoritmos semelhantes ao Gradiente de Política. O estudo empírico mostra que os valores do termo de covariância e as diferenças de entropia coincidem exatamente, apoiando a conclusão teórica. Além disso, o termo de covariância permanece principalmente positivo durante o treinamento, explicando ainda mais por que a entropia da política diminuiria monotonicamente. Ao compreender o mecanismo por trás da dinâmica da entropia, somos motivados a controlar a entropia restringindo a atualização de tokens com alta covariância. Especificamente, propomos duas técnicas simples, porém eficazes: Clip-Cov e KL-Cov, que cortam e aplicam penalidade KL, respectivamente, a tokens com altas covariâncias. Experimentos mostram que esses métodos incentivam a exploração, ajudando a política a escapar do colapso de entropia e alcançar um melhor desempenho subsequente.
English
This paper aims to overcome a major obstacle in scaling RL for reasoning with
LLMs, namely the collapse of policy entropy. Such phenomenon is consistently
observed across vast RL runs without entropy intervention, where the policy
entropy dropped sharply at the early training stage, this diminished
exploratory ability is always accompanied with the saturation of policy
performance. In practice, we establish a transformation equation R=-a*e^H+b
between entropy H and downstream performance R. This empirical law strongly
indicates that, the policy performance is traded from policy entropy, thus
bottlenecked by its exhaustion, and the ceiling is fully predictable H=0,
R=-a+b. Our finding necessitates entropy management for continuous exploration
toward scaling compute for RL. To this end, we investigate entropy dynamics
both theoretically and empirically. Our derivation highlights that, the change
in policy entropy is driven by the covariance between action probability and
the change in logits, which is proportional to its advantage when using Policy
Gradient-like algorithms. Empirical study shows that, the values of covariance
term and entropy differences matched exactly, supporting the theoretical
conclusion. Moreover, the covariance term stays mostly positive throughout
training, further explaining why policy entropy would decrease monotonically.
Through understanding the mechanism behind entropy dynamics, we motivate to
control entropy by restricting the update of high-covariance tokens.
Specifically, we propose two simple yet effective techniques, namely Clip-Cov
and KL-Cov, which clip and apply KL penalty to tokens with high covariances
respectively. Experiments show that these methods encourage exploration, thus
helping policy escape entropy collapse and achieve better downstream
performance.