CE-GPPO: Entropiebeheer via Gradient-behoudend Clippingbeleid Optimalisatie in Reinforcement Learning

Samenvatting

Reinforcement learning (RL) is uitgegroeid tot een krachtig paradigma voor het optimaliseren van grote taalmodelen (LLMs) om complexe redeneertaken aan te kunnen. Een kernuitdaging in dit proces ligt in het beheren van beleidsentropie, wat de balans tussen exploratie en exploitatie tijdens de training weerspiegelt. Bestaande methoden, zoals proximal policy optimization (PPO) en zijn varianten, verwerpen waardevolle gradiëntsignalen van tokens met een lage waarschijnlijkheid vanwege het clipping-mechanisme. We analyseren systematisch de entropiedynamiek en tonen aan dat deze geknipte tokens een cruciale maar over het hoofd gezien rol spelen bij het reguleren van de entropie-evolutie. We stellen Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO) voor, een nieuw algoritme dat op een zachte en begrensde manier gradiënten van geknipte tokens opnieuw introduceert in native PPO. Door de grootte van gradiënten van tokens buiten het clipping-interval te controleren, is CE-GPPO in staat een balans tussen exploratie en exploitatie te bereiken. We bieden theoretische rechtvaardiging en empirisch bewijs dat aantoont dat CE-GPPO entropie-instabiliteit effectief vermindert. Uitgebreide experimenten op benchmarks voor wiskundig redeneren laten zien dat CE-GPPO consistent sterke baseline-methoden overtreft bij verschillende modelschalen.

English

Reinforcement learning (RL) has become a powerful paradigm for optimizing large language models (LLMs) to handle complex reasoning tasks. A core challenge in this process lies in managing policy entropy, which reflects the balance between exploration and exploitation during training. Existing methods, such as proximal policy optimization (PPO) and its variants, discard valuable gradient signals from low-probability tokens due to the clipping mechanism. We systematically analyze the entropy dynamics and reveal that these clipped tokens play a critical yet overlooked role in regulating entropy evolution. We propose Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in native PPO in a gentle and bounded manner. By controlling the magnitude of gradients from tokens outside the clipping interval, CE-GPPO is able to achieve an exploration-exploitation trade-off. We provide theoretical justification and empirical evidence showing that CE-GPPO effectively mitigates entropy instability. Extensive experiments on mathematical reasoning benchmarks show that CE-GPPO consistently outperforms strong baselines across different model scales.

CE-GPPO: Entropiebeheer via Gradient-behoudend Clippingbeleid Optimalisatie in Reinforcement Learning

CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

Samenvatting

Support