ChatPaper.aiChatPaper

Un cadre unifié pour repenser les mesures de divergence des politiques dans GRPO

A Unified Framework for Rethinking Policy Divergence Measures in GRPO

February 5, 2026
papers.authors: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompense vérifiée (RLVR) est devenu un paradigme essentiel pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). La plupart des méthodes RLVR existantes, telles que GRPO et ses variantes, garantissent des mises à jour stables en limitant la divergence des politiques via l'écrêtage des rapports de vraisemblance. Cet article introduit un cadre d'écrêtage unifié qui caractérise les méthodes existantes via une notion générale de divergence de politique, englobant à la fois les rapports de vraisemblance et les divergences de Kullback-Leibler (KL), et s'étendant à d'autres mesures. Le cadre fournit une base théorique pour analyser systématiquement comment différentes mesures de divergence de politique affectent l'exploration et les performances. Nous identifions en outre l'estimateur KL3, un estimateur de Monte Carlo à variance réduite de la divergence KL, comme une contrainte de divergence de politique clé. Nous démontrons théoriquement que la contrainte basée sur KL3 est mathématiquement équivalente à un écrêtage asymétrique basé sur les rapports qui redistribue la masse de probabilité vers les actions de haute confiance, favorisant une exploration plus forte tout en conservant la simplicité des méthodes de type GRPO. Les résultats empiriques sur des benchmarks de raisonnement mathématique montrent que l'intégration de l'estimateur KL3 dans GRPO améliore à la fois la stabilité de l'entraînement et les performances finales, soulignant l'importance de contraintes de divergence de politique fondées sur des principes dans l'optimisation des politiques.
English
Reinforcement Learning with Verified Reward (RLVR) has emerged as a critical paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). Most existing RLVR methods, such as GRPO and its variants, ensure stable updates by constraining policy divergence through clipping likelihood ratios. This paper introduces a unified clipping framework that characterizes existing methods via a general notion of policy divergence, encompassing both likelihood ratios and Kullback-Leibler (KL) divergences and extending to alternative measures. The framework provides a principled foundation for systematically analyzing how different policy divergence measures affect exploration and performance. We further identify the KL3 estimator, a variance-reduced Monte Carlo estimator of the KL divergence, as a key policy divergence constraint. We theoretically demonstrate that the KL3-based constraint is mathematically equivalent to an asymmetric ratio-based clipping that reallocates probability mass toward high-confidence actions, promoting stronger exploration while retaining the simplicity of GRPO-style methods. Empirical results on mathematical reasoning benchmarks demonstrate that incorporating the KL3 estimator into GRPO improves both training stability and final performance, highlighting the importance of principled policy divergence constraints in policy optimization.
PDF22February 7, 2026