CE-GPPO: 強化学習における勾配保存型クリッピング政策最適化によるエントロピー制御
CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
September 25, 2025
著者: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
cs.AI
要旨
強化学習(Reinforcement Learning, RL)は、複雑な推論タスクを処理するための大規模言語モデル(Large Language Models, LLMs)を最適化する強力なパラダイムとなっています。このプロセスにおける核心的な課題は、訓練中の探索と活用のバランスを反映するポリシーエントロピーの管理にあります。既存の手法、例えば近接方策最適化(Proximal Policy Optimization, PPO)やその派生手法では、クリッピングメカニズムにより低確率トークンからの貴重な勾配信号が捨てられてしまいます。我々はエントロピーのダイナミクスを体系的に分析し、これらのクリップされたトークンがエントロピーの進化を調節する上で重要な役割を果たしているが見過ごされていることを明らかにしました。本論文では、クリップされたトークンからの勾配をPPOに穏やかで制限された形で再導入する新たなアルゴリズム、勾配保存型方策最適化によるエントロピー制御(Controlling Entropy via Gradient-Preserving Policy Optimization, CE-GPPO)を提案します。クリッピング区間外のトークンからの勾配の大きさを制御することで、CE-GPPOは探索と活用のトレードオフを実現します。我々は理論的根拠と実験的証拠を示し、CE-GPPOがエントロピーの不安定性を効果的に緩和することを明らかにしました。数学的推論ベンチマークにおける広範な実験により、CE-GPPOが異なるモデル規模において強力なベースラインを一貫して上回ることを示しました。
English
Reinforcement learning (RL) has become a powerful paradigm for optimizing
large language models (LLMs) to handle complex reasoning tasks. A core
challenge in this process lies in managing policy entropy, which reflects the
balance between exploration and exploitation during training. Existing methods,
such as proximal policy optimization (PPO) and its variants, discard valuable
gradient signals from low-probability tokens due to the clipping mechanism. We
systematically analyze the entropy dynamics and reveal that these clipped
tokens play a critical yet overlooked role in regulating entropy evolution. We
propose Controlling Entropy via
Gradient-Preserving Policy Optimization
(CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in
native PPO in a gentle and bounded manner. By controlling the magnitude of
gradients from tokens outside the clipping interval, CE-GPPO is able to achieve
an exploration-exploitation trade-off. We provide theoretical justification and
empirical evidence showing that CE-GPPO effectively mitigates entropy
instability. Extensive experiments on mathematical reasoning benchmarks show
that CE-GPPO consistently outperforms strong baselines across different model
scales.