추론 언어 모델을 위한 강화 학습의 엔트로피 메커니즘
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
May 28, 2025
저자: Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding
cs.AI
초록
본 논문은 LLM(대형 언어 모델)과 함께 추론을 위한 RL(강화 학습)의 확장에 있어 주요 장애물인 정책 엔트로피의 붕괴 현상을 극복하는 것을 목표로 합니다. 이러한 현상은 엔트로피 개입 없이 광범위한 RL 실행에서 일관되게 관찰되며, 정책 엔트로피가 초기 훈련 단계에서 급격히 감소하는 것으로 나타납니다. 이러한 탐색 능력의 감소는 항상 정책 성능의 포화와 동반됩니다. 실제로, 우리는 엔트로피 H와 하류 성능 R 사이의 변환 방정식 R=-a*e^H+b를 수립했습니다. 이 경험적 법칙은 정책 성능이 정책 엔트로피와 교환되며, 따라서 엔트로피의 고갈에 의해 병목 현상이 발생하고, 한계점이 완전히 예측 가능함(H=0, R=-a+b)을 강력히 시사합니다. 우리의 발견은 RL을 위한 계산 확장을 지속적으로 탐색하기 위해 엔트로피 관리가 필요함을 보여줍니다. 이를 위해, 우리는 이론적 및 경험적으로 엔트로피 역학을 조사했습니다. 우리의 유도는 정책 엔트로피의 변화가 행동 확률과 로짓 변화 사이의 공분산에 의해 주도되며, 이는 Policy Gradient와 유사한 알고리즘을 사용할 때 그 이점에 비례함을 강조합니다. 경험적 연구는 공분산 항과 엔트로피 차이의 값이 정확히 일치하여 이론적 결론을 지지함을 보여줍니다. 더욱이, 공분산 항은 훈련 전반에 걸쳐 대부분 양수로 유지되며, 이는 정책 엔트로피가 단조 감소하는 이유를 추가로 설명합니다. 엔트로피 역학의 메커니즘을 이해함으로써, 우리는 고공분산 토큰의 업데이트를 제한하여 엔트로피를 통제할 동기를 부여받습니다. 구체적으로, 우리는 고공분산 토큰에 각각 클리핑과 KL 페널티를 적용하는 Clip-Cov와 KL-Cov라는 두 가지 간단하지만 효과적인 기법을 제안합니다. 실험 결과, 이러한 방법들은 탐색을 촉진하여 정책이 엔트로피 붕괴를 벗어나고 더 나은 하류 성능을 달성하는 데 도움을 줍니다.
English
This paper aims to overcome a major obstacle in scaling RL for reasoning with
LLMs, namely the collapse of policy entropy. Such phenomenon is consistently
observed across vast RL runs without entropy intervention, where the policy
entropy dropped sharply at the early training stage, this diminished
exploratory ability is always accompanied with the saturation of policy
performance. In practice, we establish a transformation equation R=-a*e^H+b
between entropy H and downstream performance R. This empirical law strongly
indicates that, the policy performance is traded from policy entropy, thus
bottlenecked by its exhaustion, and the ceiling is fully predictable H=0,
R=-a+b. Our finding necessitates entropy management for continuous exploration
toward scaling compute for RL. To this end, we investigate entropy dynamics
both theoretically and empirically. Our derivation highlights that, the change
in policy entropy is driven by the covariance between action probability and
the change in logits, which is proportional to its advantage when using Policy
Gradient-like algorithms. Empirical study shows that, the values of covariance
term and entropy differences matched exactly, supporting the theoretical
conclusion. Moreover, the covariance term stays mostly positive throughout
training, further explaining why policy entropy would decrease monotonically.
Through understanding the mechanism behind entropy dynamics, we motivate to
control entropy by restricting the update of high-covariance tokens.
Specifically, we propose two simple yet effective techniques, namely Clip-Cov
and KL-Cov, which clip and apply KL penalty to tokens with high covariances
respectively. Experiments show that these methods encourage exploration, thus
helping policy escape entropy collapse and achieve better downstream
performance.Summary
AI-Generated Summary