CE-GPPO: Controlando a Entropia via Otimização de Política com Recorte que Preserva Gradientes no Aprendizado por Reforço
CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
September 25, 2025
Autores: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
cs.AI
Resumo
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se um paradigma poderoso para otimizar modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) no tratamento de tarefas complexas de raciocínio. Um desafio central nesse processo reside no gerenciamento da entropia da política, que reflete o equilíbrio entre exploração e explotação durante o treinamento. Métodos existentes, como a otimização de política proximal (PPO, do inglês Proximal Policy Optimization) e suas variantes, descartam sinais de gradiente valiosos de tokens de baixa probabilidade devido ao mecanismo de recorte. Analisamos sistematicamente a dinâmica da entropia e revelamos que esses tokens recortados desempenham um papel crítico, porém negligenciado, na regulação da evolução da entropia. Propomos o Controle de Entropia via Otimização de Política com Preservação de Gradiente (CE-GPPO, do inglês Controlling Entropy via Gradient-Preserving Policy Optimization), um algoritmo inovador que reintroduz gradientes de tokens recortados no PPO original de maneira suave e limitada. Ao controlar a magnitude dos gradientes de tokens fora do intervalo de recorte, o CE-GPPO consegue alcançar um equilíbrio entre exploração e explotação. Fornecemos justificativa teórica e evidências empíricas mostrando que o CE-GPPO mitiga efetivamente a instabilidade da entropia. Experimentos extensos em benchmarks de raciocínio matemático demonstram que o CE-GPPO supera consistentemente baselines robustas em diferentes escalas de modelos.
English
Reinforcement learning (RL) has become a powerful paradigm for optimizing
large language models (LLMs) to handle complex reasoning tasks. A core
challenge in this process lies in managing policy entropy, which reflects the
balance between exploration and exploitation during training. Existing methods,
such as proximal policy optimization (PPO) and its variants, discard valuable
gradient signals from low-probability tokens due to the clipping mechanism. We
systematically analyze the entropy dynamics and reveal that these clipped
tokens play a critical yet overlooked role in regulating entropy evolution. We
propose Controlling Entropy via
Gradient-Preserving Policy Optimization
(CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in
native PPO in a gentle and bounded manner. By controlling the magnitude of
gradients from tokens outside the clipping interval, CE-GPPO is able to achieve
an exploration-exploitation trade-off. We provide theoretical justification and
empirical evidence showing that CE-GPPO effectively mitigates entropy
instability. Extensive experiments on mathematical reasoning benchmarks show
that CE-GPPO consistently outperforms strong baselines across different model
scales.