Un Marco Unificado para Replantear las Medidas de Divergencia de Políticas en GRPO
A Unified Framework for Rethinking Policy Divergence Measures in GRPO
February 5, 2026
Autores: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensa Verificada (RLVR) ha surgido como un paradigma crítico para avanzar en las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). La mayoría de los métodos RLVR existentes, como GRPO y sus variantes, garantizan actualizaciones estables mediante la restricción de la divergencia de políticas a través del recorte de los ratios de verosimilitud. Este artículo introduce un marco unificado de recorte que caracteriza los métodos existentes mediante una noción general de divergencia de políticas, abarcando tanto los ratios de verosimilitud como las divergencias de Kullback-Leibler (KL) y extendiéndose a medidas alternativas. El marco proporciona una base fundamentada para analizar sistemáticamente cómo las diferentes medidas de divergencia de políticas afectan la exploración y el rendimiento. Además, identificamos el estimador KL3, un estimador de Monte Carlo con varianza reducida de la divergencia KL, como una restricción clave de divergencia de políticas. Demostramos teóricamente que la restricción basada en KL3 es matemáticamente equivalente a un recorte asimétrico basado en ratios que redistribuye la masa de probabilidad hacia acciones de alta confianza, promoviendo una exploración más sólida mientras retiene la simplicidad de los métodos estilo GRPO. Los resultados empíricos en benchmarks de razonamiento matemático demuestran que la incorporación del estimador KL3 en GRPO mejora tanto la estabilidad del entrenamiento como el rendimiento final, destacando la importancia de las restricciones de divergencia de políticas fundamentadas en la optimización de políticas.
English
Reinforcement Learning with Verified Reward (RLVR) has emerged as a critical paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). Most existing RLVR methods, such as GRPO and its variants, ensure stable updates by constraining policy divergence through clipping likelihood ratios. This paper introduces a unified clipping framework that characterizes existing methods via a general notion of policy divergence, encompassing both likelihood ratios and Kullback-Leibler (KL) divergences and extending to alternative measures. The framework provides a principled foundation for systematically analyzing how different policy divergence measures affect exploration and performance. We further identify the KL3 estimator, a variance-reduced Monte Carlo estimator of the KL divergence, as a key policy divergence constraint. We theoretically demonstrate that the KL3-based constraint is mathematically equivalent to an asymmetric ratio-based clipping that reallocates probability mass toward high-confidence actions, promoting stronger exploration while retaining the simplicity of GRPO-style methods. Empirical results on mathematical reasoning benchmarks demonstrate that incorporating the KL3 estimator into GRPO improves both training stability and final performance, highlighting the importance of principled policy divergence constraints in policy optimization.