CE-GPPO: Entropiebeheer via Gradient-behoudend Clippingbeleid Optimalisatie in Reinforcement Learning
CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
September 25, 2025
Auteurs: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
cs.AI
Samenvatting
Reinforcement learning (RL) is uitgegroeid tot een krachtig paradigma voor het optimaliseren van grote taalmodelen (LLMs) om complexe redeneertaken aan te kunnen. Een kernuitdaging in dit proces ligt in het beheren van beleidsentropie, wat de balans tussen exploratie en exploitatie tijdens de training weerspiegelt. Bestaande methoden, zoals proximal policy optimization (PPO) en zijn varianten, verwerpen waardevolle gradiëntsignalen van tokens met een lage waarschijnlijkheid vanwege het clipping-mechanisme. We analyseren systematisch de entropiedynamiek en tonen aan dat deze geknipte tokens een cruciale maar over het hoofd gezien rol spelen bij het reguleren van de entropie-evolutie. We stellen Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO) voor, een nieuw algoritme dat op een zachte en begrensde manier gradiënten van geknipte tokens opnieuw introduceert in native PPO. Door de grootte van gradiënten van tokens buiten het clipping-interval te controleren, is CE-GPPO in staat een balans tussen exploratie en exploitatie te bereiken. We bieden theoretische rechtvaardiging en empirisch bewijs dat aantoont dat CE-GPPO entropie-instabiliteit effectief vermindert. Uitgebreide experimenten op benchmarks voor wiskundig redeneren laten zien dat CE-GPPO consistent sterke baseline-methoden overtreft bij verschillende modelschalen.
English
Reinforcement learning (RL) has become a powerful paradigm for optimizing
large language models (LLMs) to handle complex reasoning tasks. A core
challenge in this process lies in managing policy entropy, which reflects the
balance between exploration and exploitation during training. Existing methods,
such as proximal policy optimization (PPO) and its variants, discard valuable
gradient signals from low-probability tokens due to the clipping mechanism. We
systematically analyze the entropy dynamics and reveal that these clipped
tokens play a critical yet overlooked role in regulating entropy evolution. We
propose Controlling Entropy via
Gradient-Preserving Policy Optimization
(CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in
native PPO in a gentle and bounded manner. By controlling the magnitude of
gradients from tokens outside the clipping interval, CE-GPPO is able to achieve
an exploration-exploitation trade-off. We provide theoretical justification and
empirical evidence showing that CE-GPPO effectively mitigates entropy
instability. Extensive experiments on mathematical reasoning benchmarks show
that CE-GPPO consistently outperforms strong baselines across different model
scales.