ChatPaper.aiChatPaper

Il Meccanismo di Entropia dell'Apprendimento per Rinforzo nei Modelli Linguistici di Ragionamento

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

May 28, 2025
Autori: Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding
cs.AI

Abstract

Questo articolo mira a superare un ostacolo significativo nel ridimensionamento del RL (Reinforcement Learning) per il ragionamento con LLM (Large Language Models), ovvero il collasso dell'entropia della politica. Tale fenomeno è stato osservato costantemente in numerose esecuzioni di RL senza interventi sull'entropia, dove l'entropia della politica è diminuita drasticamente nella fase iniziale dell'addestramento. Questa ridotta capacità esplorativa è sempre accompagnata dalla saturazione delle prestazioni della politica. Nella pratica, abbiamo stabilito un'equazione di trasformazione R=-a*e^H+b tra l'entropia H e le prestazioni a valle R. Questa legge empirica indica fortemente che le prestazioni della politica sono scambiate con l'entropia della politica, risultando quindi limitate dal suo esaurimento, e il limite massimo è completamente prevedibile: H=0, R=-a+b. La nostra scoperta rende necessaria la gestione dell'entropia per una continua esplorazione verso il ridimensionamento del calcolo nel RL. A tal fine, abbiamo studiato la dinamica dell'entropia sia teoricamente che empiricamente. La nostra derivazione evidenzia che il cambiamento nell'entropia della politica è guidato dalla covarianza tra la probabilità dell'azione e il cambiamento nei logit, che è proporzionale al suo vantaggio quando si utilizzano algoritmi simili al Policy Gradient. Lo studio empirico mostra che i valori del termine di covarianza e le differenze di entropia corrispondono esattamente, supportando la conclusione teorica. Inoltre, il termine di covarianza rimane prevalentemente positivo durante l'addestramento, spiegando ulteriormente perché l'entropia della politica diminuirebbe in modo monotono. Comprendendo il meccanismo alla base della dinamica dell'entropia, siamo motivati a controllare l'entropia limitando l'aggiornamento dei token con alta covarianza. In particolare, proponiamo due tecniche semplici ma efficaci, ovvero Clip-Cov e KL-Cov, che applicano rispettivamente un clipping e una penalità KL ai token con alte covarianze. Gli esperimenti mostrano che questi metodi incoraggiano l'esplorazione, aiutando così la politica a sfuggire al collasso dell'entropia e a ottenere migliori prestazioni a valle.
English
This paper aims to overcome a major obstacle in scaling RL for reasoning with LLMs, namely the collapse of policy entropy. Such phenomenon is consistently observed across vast RL runs without entropy intervention, where the policy entropy dropped sharply at the early training stage, this diminished exploratory ability is always accompanied with the saturation of policy performance. In practice, we establish a transformation equation R=-a*e^H+b between entropy H and downstream performance R. This empirical law strongly indicates that, the policy performance is traded from policy entropy, thus bottlenecked by its exhaustion, and the ceiling is fully predictable H=0, R=-a+b. Our finding necessitates entropy management for continuous exploration toward scaling compute for RL. To this end, we investigate entropy dynamics both theoretically and empirically. Our derivation highlights that, the change in policy entropy is driven by the covariance between action probability and the change in logits, which is proportional to its advantage when using Policy Gradient-like algorithms. Empirical study shows that, the values of covariance term and entropy differences matched exactly, supporting the theoretical conclusion. Moreover, the covariance term stays mostly positive throughout training, further explaining why policy entropy would decrease monotonically. Through understanding the mechanism behind entropy dynamics, we motivate to control entropy by restricting the update of high-covariance tokens. Specifically, we propose two simple yet effective techniques, namely Clip-Cov and KL-Cov, which clip and apply KL penalty to tokens with high covariances respectively. Experiments show that these methods encourage exploration, thus helping policy escape entropy collapse and achieve better downstream performance.
PDF1273May 29, 2025