ChatPaper.aiChatPaper

CE-GPPO: Kontrolle der Entropie durch gradientenerhaltende Clipping-Politikoptimierung im Reinforcement Learning

CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

September 25, 2025
papers.authors: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
cs.AI

papers.abstract

Reinforcement Learning (RL) hat sich zu einem leistungsstarken Paradigma entwickelt, um große Sprachmodelle (LLMs) für die Bewältigung komplexer Denkaufgaben zu optimieren. Eine zentrale Herausforderung in diesem Prozess besteht in der Steuerung der Policy-Entropie, die das Gleichgewicht zwischen Exploration und Exploitation während des Trainings widerspiegelt. Bestehende Methoden wie Proximal Policy Optimization (PPO) und deren Varianten verwerfen wertvolle Gradientensignale von Tokens mit geringer Wahrscheinlichkeit aufgrund des Clipping-Mechanismus. Wir analysieren systematisch die Entropiedynamik und zeigen, dass diese abgeschnittenen Tokens eine kritische, aber oft übersehene Rolle bei der Regulierung der Entropieentwicklung spielen. Wir schlagen Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO) vor, einen neuartigen Algorithmus, der Gradienten von abgeschnittenen Tokens in der nativen PPO auf sanfte und begrenzte Weise wieder einführt. Durch die Kontrolle der Größe der Gradienten von Tokens außerhalb des Clipping-Intervalls ermöglicht CE-GPPO einen Ausgleich zwischen Exploration und Exploitation. Wir liefern theoretische Begründungen und empirische Belege, die zeigen, dass CE-GPPO die Entropieinstabilität effektiv reduziert. Umfangreiche Experimente auf mathematischen Reasoning-Benchmarks zeigen, dass CE-GPPO durchweg starke Baseline-Modelle über verschiedene Modellgrößen hinweg übertrifft.
English
Reinforcement learning (RL) has become a powerful paradigm for optimizing large language models (LLMs) to handle complex reasoning tasks. A core challenge in this process lies in managing policy entropy, which reflects the balance between exploration and exploitation during training. Existing methods, such as proximal policy optimization (PPO) and its variants, discard valuable gradient signals from low-probability tokens due to the clipping mechanism. We systematically analyze the entropy dynamics and reveal that these clipped tokens play a critical yet overlooked role in regulating entropy evolution. We propose Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in native PPO in a gentle and bounded manner. By controlling the magnitude of gradients from tokens outside the clipping interval, CE-GPPO is able to achieve an exploration-exploitation trade-off. We provide theoretical justification and empirical evidence showing that CE-GPPO effectively mitigates entropy instability. Extensive experiments on mathematical reasoning benchmarks show that CE-GPPO consistently outperforms strong baselines across different model scales.
PDF164September 26, 2025