Le mécanisme d'entropie de l'apprentissage par renforcement pour les modèles de langage raisonné
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
May 28, 2025
Auteurs: Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding
cs.AI
Résumé
Cet article vise à surmonter un obstacle majeur dans la mise à l'échelle de l'apprentissage par renforcement (RL) pour le raisonnement avec des modèles de langage de grande taille (LLMs), à savoir l'effondrement de l'entropie de la politique. Ce phénomène est systématiquement observé dans de vastes exécutions de RL sans intervention sur l'entropie, où l'entropie de la politique chute brusquement dès les premières étapes de l'entraînement. Cette diminution de la capacité d'exploration s'accompagne toujours d'une saturation des performances de la politique. En pratique, nous établissons une équation de transformation R=-a*e^H+b entre l'entropie H et la performance en aval R. Cette loi empirique indique fortement que la performance de la politique est échangée contre l'entropie de la politique, et donc limitée par son épuisement, avec un plafond entièrement prévisible H=0, R=-a+b. Notre découverte nécessite une gestion de l'entropie pour une exploration continue visant à mettre à l'échelle les calculs pour le RL. À cette fin, nous étudions la dynamique de l'entropie à la fois théoriquement et empiriquement. Notre dérivation met en évidence que la variation de l'entropie de la politique est pilotée par la covariance entre la probabilité d'action et la variation des logits, qui est proportionnelle à son avantage lors de l'utilisation d'algorithmes de type Policy Gradient. Une étude empirique montre que les valeurs du terme de covariance et des différences d'entropie correspondent exactement, soutenant la conclusion théorique. De plus, le terme de covariance reste majoritairement positif tout au long de l'entraînement, expliquant davantage pourquoi l'entropie de la politique diminue de manière monotone. En comprenant le mécanisme derrière la dynamique de l'entropie, nous sommes motivés à contrôler l'entropie en limitant la mise à jour des tokens à forte covariance. Plus précisément, nous proposons deux techniques simples mais efficaces, à savoir Clip-Cov et KL-Cov, qui appliquent respectivement un clipping et une pénalité KL aux tokens à forte covariance. Les expériences montrent que ces méthodes encouragent l'exploration, aidant ainsi la politique à échapper à l'effondrement de l'entropie et à atteindre de meilleures performances en aval.
English
This paper aims to overcome a major obstacle in scaling RL for reasoning with
LLMs, namely the collapse of policy entropy. Such phenomenon is consistently
observed across vast RL runs without entropy intervention, where the policy
entropy dropped sharply at the early training stage, this diminished
exploratory ability is always accompanied with the saturation of policy
performance. In practice, we establish a transformation equation R=-a*e^H+b
between entropy H and downstream performance R. This empirical law strongly
indicates that, the policy performance is traded from policy entropy, thus
bottlenecked by its exhaustion, and the ceiling is fully predictable H=0,
R=-a+b. Our finding necessitates entropy management for continuous exploration
toward scaling compute for RL. To this end, we investigate entropy dynamics
both theoretically and empirically. Our derivation highlights that, the change
in policy entropy is driven by the covariance between action probability and
the change in logits, which is proportional to its advantage when using Policy
Gradient-like algorithms. Empirical study shows that, the values of covariance
term and entropy differences matched exactly, supporting the theoretical
conclusion. Moreover, the covariance term stays mostly positive throughout
training, further explaining why policy entropy would decrease monotonically.
Through understanding the mechanism behind entropy dynamics, we motivate to
control entropy by restricting the update of high-covariance tokens.
Specifically, we propose two simple yet effective techniques, namely Clip-Cov
and KL-Cov, which clip and apply KL penalty to tokens with high covariances
respectively. Experiments show that these methods encourage exploration, thus
helping policy escape entropy collapse and achieve better downstream
performance.Summary
AI-Generated Summary