Der Entropiemechanismus des Verstärkungslernens für schlussfolgernde Sprachmodelle
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
May 28, 2025
Autoren: Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding
cs.AI
Zusammenfassung
Dieses Papier zielt darauf ab, ein großes Hindernis bei der Skalierung von Reinforcement Learning (RL) für das Schließen mit großen Sprachmodellen (LLMs) zu überwinden, nämlich den Kollaps der Policy-Entropie. Dieses Phänomen wird konsequent in umfangreichen RL-Läufen ohne Entropie-Intervention beobachtet, bei denen die Policy-Entropie in der frühen Trainingsphase stark abfällt. Diese verringerte Explorationsfähigkeit geht stets mit einer Sättigung der Policy-Leistung einher. In der Praxis stellen wir eine Transformationsgleichung R=-a*e^H+b zwischen der Entropie H und der nachgelagerten Leistung R auf. Dieses empirische Gesetz deutet stark darauf hin, dass die Policy-Leistung auf Kosten der Policy-Entropie erzielt wird und somit durch deren Erschöpfung begrenzt ist, wobei die Obergrenze vollständig vorhersehbar ist: H=0, R=-a+b. Unsere Erkenntnis macht ein Entropie-Management für kontinuierliche Exploration im Hinblick auf die Skalierung von Rechenleistung für RL notwendig. Zu diesem Zweck untersuchen wir die Entropie-Dynamik sowohl theoretisch als auch empirisch. Unsere Ableitung zeigt, dass die Veränderung der Policy-Entropie durch die Kovarianz zwischen der Aktionswahrscheinlichkeit und der Veränderung der Logits angetrieben wird, die proportional zu ihrem Vorteil bei der Verwendung von Policy-Gradient-ähnlichen Algorithmen ist. Die empirische Studie zeigt, dass die Werte des Kovarianzterms und der Entropieunterschiede exakt übereinstimmen, was die theoretische Schlussfolgerung unterstützt. Darüber hinaus bleibt der Kovarianzterm während des gesamten Trainings überwiegend positiv, was weiter erklärt, warum die Policy-Entropie monoton abnehmen würde. Durch das Verständnis des Mechanismus hinter der Entropie-Dynamik motivieren wir die Kontrolle der Entropie durch die Einschränkung der Aktualisierung von Tokens mit hoher Kovarianz. Insbesondere schlagen wir zwei einfache, aber effektive Techniken vor, nämlich Clip-Cov und KL-Cov, die Tokens mit hohen Kovarianzen jeweils abschneiden und eine KL-Strafe anwenden. Experimente zeigen, dass diese Methoden die Exploration fördern und somit dazu beitragen, dass die Policy dem Entropie-Kollaps entkommt und eine bessere nachgelagerte Leistung erzielt.
English
This paper aims to overcome a major obstacle in scaling RL for reasoning with
LLMs, namely the collapse of policy entropy. Such phenomenon is consistently
observed across vast RL runs without entropy intervention, where the policy
entropy dropped sharply at the early training stage, this diminished
exploratory ability is always accompanied with the saturation of policy
performance. In practice, we establish a transformation equation R=-a*e^H+b
between entropy H and downstream performance R. This empirical law strongly
indicates that, the policy performance is traded from policy entropy, thus
bottlenecked by its exhaustion, and the ceiling is fully predictable H=0,
R=-a+b. Our finding necessitates entropy management for continuous exploration
toward scaling compute for RL. To this end, we investigate entropy dynamics
both theoretically and empirically. Our derivation highlights that, the change
in policy entropy is driven by the covariance between action probability and
the change in logits, which is proportional to its advantage when using Policy
Gradient-like algorithms. Empirical study shows that, the values of covariance
term and entropy differences matched exactly, supporting the theoretical
conclusion. Moreover, the covariance term stays mostly positive throughout
training, further explaining why policy entropy would decrease monotonically.
Through understanding the mechanism behind entropy dynamics, we motivate to
control entropy by restricting the update of high-covariance tokens.
Specifically, we propose two simple yet effective techniques, namely Clip-Cov
and KL-Cov, which clip and apply KL penalty to tokens with high covariances
respectively. Experiments show that these methods encourage exploration, thus
helping policy escape entropy collapse and achieve better downstream
performance.Summary
AI-Generated Summary