CE-GPPO: Controllo dell'Entropia tramite Ottimizzazione delle Politiche con Clipping Preservante il Gradiente nell'Apprendimento per Rinforzo
CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
September 25, 2025
Autori: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
cs.AI
Abstract
L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato un paradigma potente per ottimizzare i modelli linguistici di grandi dimensioni (Large Language Models, LLMs) nella gestione di compiti di ragionamento complessi. Una sfida centrale in questo processo risiede nella gestione dell'entropia della policy, che riflette l'equilibrio tra esplorazione e sfruttamento durante l'addestramento. I metodi esistenti, come l'ottimizzazione prossimale della policy (Proximal Policy Optimization, PPO) e le sue varianti, scartano segnali di gradiente preziosi provenienti da token a bassa probabilità a causa del meccanismo di clipping. Analizziamo sistematicamente le dinamiche dell'entropia e riveliamo che questi token tagliati svolgono un ruolo critico ma trascurato nella regolazione dell'evoluzione dell'entropia. Proponiamo Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), un nuovo algoritmo che reintroduce i gradienti dai token tagliati nel PPO nativo in modo delicato e limitato. Controllando l'ampiezza dei gradienti provenienti da token al di fuori dell'intervallo di clipping, CE-GPPO è in grado di raggiungere un compromesso tra esplorazione e sfruttamento. Forniamo una giustificazione teorica e prove empiriche che dimostrano come CE-GPPO mitighi efficacemente l'instabilità dell'entropia. Esperimenti estesi su benchmark di ragionamento matematico mostrano che CE-GPPO supera costantemente i baseline forti su diverse scale di modelli.
English
Reinforcement learning (RL) has become a powerful paradigm for optimizing
large language models (LLMs) to handle complex reasoning tasks. A core
challenge in this process lies in managing policy entropy, which reflects the
balance between exploration and exploitation during training. Existing methods,
such as proximal policy optimization (PPO) and its variants, discard valuable
gradient signals from low-probability tokens due to the clipping mechanism. We
systematically analyze the entropy dynamics and reveal that these clipped
tokens play a critical yet overlooked role in regulating entropy evolution. We
propose Controlling Entropy via
Gradient-Preserving Policy Optimization
(CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in
native PPO in a gentle and bounded manner. By controlling the magnitude of
gradients from tokens outside the clipping interval, CE-GPPO is able to achieve
an exploration-exploitation trade-off. We provide theoretical justification and
empirical evidence showing that CE-GPPO effectively mitigates entropy
instability. Extensive experiments on mathematical reasoning benchmarks show
that CE-GPPO consistently outperforms strong baselines across different model
scales.