CE-GPPO: Управление энтропией через оптимизацию политики с сохранением градиента и ограничением в обучении с подкреплением
CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
September 25, 2025
Авторы: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
cs.AI
Аннотация
Обучение с подкреплением (RL) стало мощной парадигмой для оптимизации больших языковых моделей (LLM) с целью решения сложных задач логического рассуждения. Основная проблема в этом процессе заключается в управлении энтропией политики, которая отражает баланс между исследованием и эксплуатацией во время обучения. Существующие методы, такие как проксимальная оптимизация политики (PPO) и её варианты, отбрасывают ценные градиентные сигналы от маловероятных токенов из-за механизма отсечения. Мы систематически анализируем динамику энтропии и показываем, что эти отсечённые токены играют критическую, но недооценённую роль в регулировании эволюции энтропии. Мы предлагаем алгоритм **Управление Энтропией через Градиент-Сохранную Оптимизацию Политики (CE-GPPO)**, который мягко и ограниченно возвращает градиенты от отсечённых токенов в оригинальный PPO. Контролируя величину градиентов от токенов за пределами интервала отсечения, CE-GPPO достигает баланса между исследованием и эксплуатацией. Мы предоставляем теоретическое обоснование и эмпирические доказательства, показывающие, что CE-GPPO эффективно смягчает нестабильность энтропии. Эксперименты на задачах математического рассуждения демонстрируют, что CE-GPPO стабильно превосходит сильные базовые методы для моделей различных масштабов.
English
Reinforcement learning (RL) has become a powerful paradigm for optimizing
large language models (LLMs) to handle complex reasoning tasks. A core
challenge in this process lies in managing policy entropy, which reflects the
balance between exploration and exploitation during training. Existing methods,
such as proximal policy optimization (PPO) and its variants, discard valuable
gradient signals from low-probability tokens due to the clipping mechanism. We
systematically analyze the entropy dynamics and reveal that these clipped
tokens play a critical yet overlooked role in regulating entropy evolution. We
propose Controlling Entropy via
Gradient-Preserving Policy Optimization
(CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in
native PPO in a gentle and bounded manner. By controlling the magnitude of
gradients from tokens outside the clipping interval, CE-GPPO is able to achieve
an exploration-exploitation trade-off. We provide theoretical justification and
empirical evidence showing that CE-GPPO effectively mitigates entropy
instability. Extensive experiments on mathematical reasoning benchmarks show
that CE-GPPO consistently outperforms strong baselines across different model
scales.