El Mecanismo de Entropía del Aprendizaje por Refuerzo para Modelos de Lenguaje de Razonamiento
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
May 28, 2025
Autores: Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding
cs.AI
Resumen
Este artículo busca superar un obstáculo importante en la escalabilidad del aprendizaje por refuerzo (RL) para el razonamiento con modelos de lenguaje grandes (LLMs), específicamente el colapso de la entropía de la política. Este fenómeno se observa consistentemente en numerosas ejecuciones de RL sin intervención de entropía, donde la entropía de la política disminuye abruptamente en las primeras etapas del entrenamiento. Esta reducción en la capacidad exploratoria siempre va acompañada de la saturación del rendimiento de la política. En la práctica, establecemos una ecuación de transformación R=-a*e^H+b entre la entropía H y el rendimiento posterior R. Esta ley empírica indica fuertemente que el rendimiento de la política se obtiene a costa de la entropía de la política, lo que la limita debido a su agotamiento, y el límite es completamente predecible cuando H=0, resultando en R=-a+b. Nuestro hallazgo hace necesario gestionar la entropía para permitir una exploración continua hacia la escalabilidad del cómputo en RL. Para ello, investigamos la dinámica de la entropía tanto teórica como empíricamente. Nuestra derivación destaca que el cambio en la entropía de la política está impulsado por la covarianza entre la probabilidad de acción y el cambio en los logits, que es proporcional a su ventaja cuando se utilizan algoritmos similares al Gradiente de Política. El estudio empírico muestra que los valores del término de covarianza y las diferencias de entropía coinciden exactamente, respaldando la conclusión teórica. Además, el término de covarianza se mantiene mayormente positivo durante el entrenamiento, lo que explica por qué la entropía de la política disminuye monótonamente. Al comprender el mecanismo detrás de la dinámica de la entropía, nos motivamos a controlarla restringiendo la actualización de tokens con alta covarianza. Específicamente, proponemos dos técnicas simples pero efectivas, llamadas Clip-Cov y KL-Cov, que recortan y aplican una penalización KL a los tokens con altas covarianzas, respectivamente. Los experimentos muestran que estos métodos fomentan la exploración, ayudando así a la política a escapar del colapso de la entropía y lograr un mejor rendimiento posterior.
English
This paper aims to overcome a major obstacle in scaling RL for reasoning with
LLMs, namely the collapse of policy entropy. Such phenomenon is consistently
observed across vast RL runs without entropy intervention, where the policy
entropy dropped sharply at the early training stage, this diminished
exploratory ability is always accompanied with the saturation of policy
performance. In practice, we establish a transformation equation R=-a*e^H+b
between entropy H and downstream performance R. This empirical law strongly
indicates that, the policy performance is traded from policy entropy, thus
bottlenecked by its exhaustion, and the ceiling is fully predictable H=0,
R=-a+b. Our finding necessitates entropy management for continuous exploration
toward scaling compute for RL. To this end, we investigate entropy dynamics
both theoretically and empirically. Our derivation highlights that, the change
in policy entropy is driven by the covariance between action probability and
the change in logits, which is proportional to its advantage when using Policy
Gradient-like algorithms. Empirical study shows that, the values of covariance
term and entropy differences matched exactly, supporting the theoretical
conclusion. Moreover, the covariance term stays mostly positive throughout
training, further explaining why policy entropy would decrease monotonically.
Through understanding the mechanism behind entropy dynamics, we motivate to
control entropy by restricting the update of high-covariance tokens.
Specifically, we propose two simple yet effective techniques, namely Clip-Cov
and KL-Cov, which clip and apply KL penalty to tokens with high covariances
respectively. Experiments show that these methods encourage exploration, thus
helping policy escape entropy collapse and achieve better downstream
performance.Summary
AI-Generated Summary