ChatPaper.aiChatPaper

L'écrêtage du ratio d'entropie comme contrainte globale souple pour un apprentissage par renforcement stable

Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

December 5, 2025
papers.authors: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Tiehua Mei, Zijia Lin, Yuntao Li, Wenping Hu, Ruiming Tang, Kun Gai, Guorui Zhou
cs.AI

papers.abstract

L’apprentissage par renforcement appliqué aux grands modèles de langage après leur entraînement vise à améliorer leurs capacités et leur alignement. Cependant, le paradigme d’entraînement hors politique introduit un décalage de distribution, qui pousse souvent la politique au-delà de la région de confiance, entraînant des instabilités manifestées par des fluctuations de l’entropie de la politique et des gradients instables. Bien que PPO-Clip atténue ce problème par un clipping d’importance, il néglige toujours le décalage distributionnel global des actions. Pour relever ces défis, nous proposons d’utiliser le ratio d’entropie entre les politiques actuelle et précédente comme nouvelle métrique globale, qui quantifie efficacement l’évolution relative de l’exploration de la politique lors des mises à jour. Sur cette base, nous introduisons un mécanisme de clipping du ratio d’entropie (ERC) qui impose des contraintes bidirectionnelles sur ce ratio. Cela stabilise les mises à jour de la politique au niveau distributionnel global et compense l’incapacité de PPO-clip à réguler les décalages de probabilité des actions non échantillonnées. Nous intégrons ERC dans les algorithmes d’apprentissage par renforcement DAPO et GPPO. Les expériences menées sur plusieurs benchmarks montrent qu’ERC améliore constamment les performances.
English
Large language model post-training relies on reinforcement learning to improve model capability and alignment quality. However, the off-policy training paradigm introduces distribution shift, which often pushes the policy beyond the trust region, leading to training instabilities manifested as fluctuations in policy entropy and unstable gradients. Although PPO-Clip mitigates this issue through importance clipping, it still overlooks the global distributional shift of actions. To address these challenges, we propose using the entropy ratio between the current and previous policies as a new global metric that effectively quantifies the relative change in policy exploration throughout updates. Building on this metric, we introduce an Entropy Ratio Clipping (ERC) mechanism that imposes bidirectional constraints on the entropy ratio. This stabilizes policy updates at the global distribution level and compensates for the inability of PPO-clip to regulate probability shifts of un-sampled actions. We integrate ERC into both DAPO and GPPO reinforcement learning algorithms. Experiments across multiple benchmarks show that ERC consistently improves performance.
PDF162December 9, 2025