CE-GPPO: Управление энтропией через оптимизацию политики с сохранением градиента и ограничением в обучении с подкреплением

Аннотация

Обучение с подкреплением (RL) стало мощной парадигмой для оптимизации больших языковых моделей (LLM) с целью решения сложных задач логического рассуждения. Основная проблема в этом процессе заключается в управлении энтропией политики, которая отражает баланс между исследованием и эксплуатацией во время обучения. Существующие методы, такие как проксимальная оптимизация политики (PPO) и её варианты, отбрасывают ценные градиентные сигналы от маловероятных токенов из-за механизма отсечения. Мы систематически анализируем динамику энтропии и показываем, что эти отсечённые токены играют критическую, но недооценённую роль в регулировании эволюции энтропии. Мы предлагаем алгоритм **Управление Энтропией через Градиент-Сохранную Оптимизацию Политики (CE-GPPO)**, который мягко и ограниченно возвращает градиенты от отсечённых токенов в оригинальный PPO. Контролируя величину градиентов от токенов за пределами интервала отсечения, CE-GPPO достигает баланса между исследованием и эксплуатацией. Мы предоставляем теоретическое обоснование и эмпирические доказательства, показывающие, что CE-GPPO эффективно смягчает нестабильность энтропии. Эксперименты на задачах математического рассуждения демонстрируют, что CE-GPPO стабильно превосходит сильные базовые методы для моделей различных масштабов.

English

Reinforcement learning (RL) has become a powerful paradigm for optimizing large language models (LLMs) to handle complex reasoning tasks. A core challenge in this process lies in managing policy entropy, which reflects the balance between exploration and exploitation during training. Existing methods, such as proximal policy optimization (PPO) and its variants, discard valuable gradient signals from low-probability tokens due to the clipping mechanism. We systematically analyze the entropy dynamics and reveal that these clipped tokens play a critical yet overlooked role in regulating entropy evolution. We propose Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in native PPO in a gentle and bounded manner. By controlling the magnitude of gradients from tokens outside the clipping interval, CE-GPPO is able to achieve an exploration-exploitation trade-off. We provide theoretical justification and empirical evidence showing that CE-GPPO effectively mitigates entropy instability. Extensive experiments on mathematical reasoning benchmarks show that CE-GPPO consistently outperforms strong baselines across different model scales.

CE-GPPO: Управление энтропией через оптимизацию политики с сохранением градиента и ограничением в обучении с подкреплением

CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

Аннотация

Support