ChatPaper.aiChatPaper

CE-GPPO : Contrôle de l'entropie via l'optimisation de politique par écrêtage préservant le gradient en apprentissage par renforcement

CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

September 25, 2025
papers.authors: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
cs.AI

papers.abstract

L'apprentissage par renforcement (Reinforcement Learning, RL) est devenu un paradigme puissant pour optimiser les grands modèles de langage (Large Language Models, LLMs) afin de gérer des tâches de raisonnement complexes. Un défi central dans ce processus réside dans la gestion de l'entropie de la politique, qui reflète l'équilibre entre exploration et exploitation pendant l'entraînement. Les méthodes existantes, telles que l'optimisation proximale des politiques (Proximal Policy Optimization, PPO) et ses variantes, éliminent des signaux de gradient précieux provenant de tokens à faible probabilité en raison du mécanisme de clipping. Nous analysons systématiquement la dynamique de l'entropie et révélons que ces tokens coupés jouent un rôle critique mais négligé dans la régulation de l'évolution de l'entropie. Nous proposons Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), un nouvel algorithme qui réintroduit les gradients des tokens coupés dans le PPO standard de manière douce et bornée. En contrôlant l'amplitude des gradients des tokens situés en dehors de l'intervalle de clipping, CE-GPPO parvient à atteindre un équilibre entre exploration et exploitation. Nous fournissons une justification théorique et des preuves empiriques montrant que CE-GPPO atténue efficacement l'instabilité de l'entropie. Des expériences approfondies sur des benchmarks de raisonnement mathématique montrent que CE-GPPO surpasse systématiquement des bases de référence solides à différentes échelles de modèles.
English
Reinforcement learning (RL) has become a powerful paradigm for optimizing large language models (LLMs) to handle complex reasoning tasks. A core challenge in this process lies in managing policy entropy, which reflects the balance between exploration and exploitation during training. Existing methods, such as proximal policy optimization (PPO) and its variants, discard valuable gradient signals from low-probability tokens due to the clipping mechanism. We systematically analyze the entropy dynamics and reveal that these clipped tokens play a critical yet overlooked role in regulating entropy evolution. We propose Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in native PPO in a gentle and bounded manner. By controlling the magnitude of gradients from tokens outside the clipping interval, CE-GPPO is able to achieve an exploration-exploitation trade-off. We provide theoretical justification and empirical evidence showing that CE-GPPO effectively mitigates entropy instability. Extensive experiments on mathematical reasoning benchmarks show that CE-GPPO consistently outperforms strong baselines across different model scales.
PDF164September 26, 2025