ChatPaper.aiChatPaper

CE-GPPO: Controllo dell'Entropia tramite Ottimizzazione delle Politiche con Clipping Preservante il Gradiente nell'Apprendimento per Rinforzo

CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

September 25, 2025
Autori: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
cs.AI

Abstract

L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato un paradigma potente per ottimizzare i modelli linguistici di grandi dimensioni (Large Language Models, LLMs) nella gestione di compiti di ragionamento complessi. Una sfida centrale in questo processo risiede nella gestione dell'entropia della policy, che riflette l'equilibrio tra esplorazione e sfruttamento durante l'addestramento. I metodi esistenti, come l'ottimizzazione prossimale della policy (Proximal Policy Optimization, PPO) e le sue varianti, scartano segnali di gradiente preziosi provenienti da token a bassa probabilità a causa del meccanismo di clipping. Analizziamo sistematicamente le dinamiche dell'entropia e riveliamo che questi token tagliati svolgono un ruolo critico ma trascurato nella regolazione dell'evoluzione dell'entropia. Proponiamo Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), un nuovo algoritmo che reintroduce i gradienti dai token tagliati nel PPO nativo in modo delicato e limitato. Controllando l'ampiezza dei gradienti provenienti da token al di fuori dell'intervallo di clipping, CE-GPPO è in grado di raggiungere un compromesso tra esplorazione e sfruttamento. Forniamo una giustificazione teorica e prove empiriche che dimostrano come CE-GPPO mitighi efficacemente l'instabilità dell'entropia. Esperimenti estesi su benchmark di ragionamento matematico mostrano che CE-GPPO supera costantemente i baseline forti su diverse scale di modelli.
English
Reinforcement learning (RL) has become a powerful paradigm for optimizing large language models (LLMs) to handle complex reasoning tasks. A core challenge in this process lies in managing policy entropy, which reflects the balance between exploration and exploitation during training. Existing methods, such as proximal policy optimization (PPO) and its variants, discard valuable gradient signals from low-probability tokens due to the clipping mechanism. We systematically analyze the entropy dynamics and reveal that these clipped tokens play a critical yet overlooked role in regulating entropy evolution. We propose Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in native PPO in a gentle and bounded manner. By controlling the magnitude of gradients from tokens outside the clipping interval, CE-GPPO is able to achieve an exploration-exploitation trade-off. We provide theoretical justification and empirical evidence showing that CE-GPPO effectively mitigates entropy instability. Extensive experiments on mathematical reasoning benchmarks show that CE-GPPO consistently outperforms strong baselines across different model scales.
PDF174September 26, 2025