Un Quadro Unificato per Ripensare le Misure di Divergenza delle Politiche nel GRPO
A Unified Framework for Rethinking Policy Divergence Measures in GRPO
February 5, 2026
Autori: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
cs.AI
Abstract
L'Apprendimento per Rinforzo con Ricompensa Verificata (RLVR) è emerso come paradigma cruciale per potenziare le capacità di ragionamento dei Large Language Model (LLM). La maggior parte dei metodi RLVR esistenti, come GRPO e le sue varianti, garantiscono aggiornamenti stabili vincolando la divergenza della politica attraverso il clipping dei likelihood ratio. Questo articolo introduce un framework unificato di clipping che caratterizza i metodi esistenti mediante una nozione generale di divergenza della politica, che comprende sia i likelihood ratio che le divergenze di Kullback-Leibler (KL) e si estende a misure alternative. Il framework fornisce una base principiata per analizzare sistematicamente come le diverse misure di divergenza della politica influenzino l'esplorazione e le prestazioni. Identifichiamo inoltre lo stimatore KL3, uno stimatore Monte Carlo a varianza ridotta della divergenza KL, come vincolo chiave per la divergenza della politica. Dimostriamo teoricamente che il vincolo basato su KL3 è matematicamente equivalente a un clipping asimmetrico basato sui ratio che ridistribuisce la massa di probabilità verso azioni ad alta confidenza, promuovendo un'esplorazione più intensa pur conservando la semplicità dei metodi di tipo GRPO. I risultati empirici su benchmark di ragionamento matematico dimostrano che l'incorporazione dello stimatore KL3 in GRPO migliora sia la stabilità dell'addestramento che le prestazioni finali, evidenziando l'importanza di vincoli principiati sulla divergenza della politica nell'ottimizzazione delle policy.
English
Reinforcement Learning with Verified Reward (RLVR) has emerged as a critical paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). Most existing RLVR methods, such as GRPO and its variants, ensure stable updates by constraining policy divergence through clipping likelihood ratios. This paper introduces a unified clipping framework that characterizes existing methods via a general notion of policy divergence, encompassing both likelihood ratios and Kullback-Leibler (KL) divergences and extending to alternative measures. The framework provides a principled foundation for systematically analyzing how different policy divergence measures affect exploration and performance. We further identify the KL3 estimator, a variance-reduced Monte Carlo estimator of the KL divergence, as a key policy divergence constraint. We theoretically demonstrate that the KL3-based constraint is mathematically equivalent to an asymmetric ratio-based clipping that reallocates probability mass toward high-confidence actions, promoting stronger exploration while retaining the simplicity of GRPO-style methods. Empirical results on mathematical reasoning benchmarks demonstrate that incorporating the KL3 estimator into GRPO improves both training stability and final performance, highlighting the importance of principled policy divergence constraints in policy optimization.