CE-GPPO: Control de la Entropía mediante Optimización de Políticas con Recorte que Preserva el Gradiente en Aprendizaje por Refuerzo
CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
September 25, 2025
Autores: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un paradigma poderoso para optimizar modelos de lenguaje de gran escala (LLMs) en tareas de razonamiento complejo. Un desafío central en este proceso radica en gestionar la entropía de la política, que refleja el equilibrio entre exploración y explotación durante el entrenamiento. Los métodos existentes, como la optimización de políticas proximales (PPO) y sus variantes, descartan señales de gradiente valiosas provenientes de tokens de baja probabilidad debido al mecanismo de recorte. Analizamos sistemáticamente la dinámica de la entropía y revelamos que estos tokens recortados desempeñan un papel crítico pero pasado por alto en la regulación de la evolución de la entropía. Proponemos Control de Entropía mediante Optimización de Políticas con Preservación de Gradiente (CE-GPPO), un algoritmo novedoso que reintroduce los gradientes de los tokens recortados en el PPO original de manera suave y acotada. Al controlar la magnitud de los gradientes de los tokens fuera del intervalo de recorte, CE-GPPO logra un equilibrio entre exploración y explotación. Proporcionamos justificación teórica y evidencia empírica que demuestra que CE-GPPO mitiga eficazmente la inestabilidad de la entropía. Experimentos exhaustivos en benchmarks de razonamiento matemático muestran que CE-GPPO supera consistentemente a los métodos de referencia en diferentes escalas de modelos.
English
Reinforcement learning (RL) has become a powerful paradigm for optimizing
large language models (LLMs) to handle complex reasoning tasks. A core
challenge in this process lies in managing policy entropy, which reflects the
balance between exploration and exploitation during training. Existing methods,
such as proximal policy optimization (PPO) and its variants, discard valuable
gradient signals from low-probability tokens due to the clipping mechanism. We
systematically analyze the entropy dynamics and reveal that these clipped
tokens play a critical yet overlooked role in regulating entropy evolution. We
propose Controlling Entropy via
Gradient-Preserving Policy Optimization
(CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in
native PPO in a gentle and bounded manner. By controlling the magnitude of
gradients from tokens outside the clipping interval, CE-GPPO is able to achieve
an exploration-exploitation trade-off. We provide theoretical justification and
empirical evidence showing that CE-GPPO effectively mitigates entropy
instability. Extensive experiments on mathematical reasoning benchmarks show
that CE-GPPO consistently outperforms strong baselines across different model
scales.