Um Framework Unificado para Repensar as Medidas de Divergência de Políticas no GRPO
A Unified Framework for Rethinking Policy Divergence Measures in GRPO
February 5, 2026
Autores: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
cs.AI
Resumo
O Aprendizado por Reforço com Recompensa Verificada (RLVR) emergiu como um paradigma crítico para avançar as capacidades de raciocínio dos Grandes Modelos de Linguagem (LLMs). A maioria dos métodos RLVR existentes, como GRPO e suas variantes, garantem atualizações estáveis ao restringir a divergência da política por meio do recorte das razões de verossimilhança. Este artigo introduz uma estrutura unificada de recorte que caracteriza os métodos existentes por meio de uma noção geral de divergência de política, abrangendo tanto as razões de verossimilhança quanto as divergências de Kullback-Leibler (KL) e estendendo-se a medidas alternativas. A estrutura fornece uma base fundamentada para analisar sistematicamente como diferentes medidas de divergência de política afetam a exploração e o desempenho. Identificamos ainda o estimador KL3, um estimador de Monte Carlo com variância reduzida da divergência KL, como uma restrição chave de divergência de política. Demonstramos teoricamente que a restrição baseada em KL3 é matematicamente equivalente a um recarte assimétrico baseado em razão que realoca a massa de probabilidade para ações de alta confiança, promovendo uma exploração mais forte enquanto mantém a simplicidade dos métodos estilo GRPO. Resultados empíricos em benchmarks de raciocínio matemático demonstram que a incorporação do estimador KL3 no GRPO melhora tanto a estabilidade do treinamento quanto o desempenho final, destacando a importância de restrições de divergência de política fundamentadas na otimização de políticas.
English
Reinforcement Learning with Verified Reward (RLVR) has emerged as a critical paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). Most existing RLVR methods, such as GRPO and its variants, ensure stable updates by constraining policy divergence through clipping likelihood ratios. This paper introduces a unified clipping framework that characterizes existing methods via a general notion of policy divergence, encompassing both likelihood ratios and Kullback-Leibler (KL) divergences and extending to alternative measures. The framework provides a principled foundation for systematically analyzing how different policy divergence measures affect exploration and performance. We further identify the KL3 estimator, a variance-reduced Monte Carlo estimator of the KL divergence, as a key policy divergence constraint. We theoretically demonstrate that the KL3-based constraint is mathematically equivalent to an asymmetric ratio-based clipping that reallocates probability mass toward high-confidence actions, promoting stronger exploration while retaining the simplicity of GRPO-style methods. Empirical results on mathematical reasoning benchmarks demonstrate that incorporating the KL3 estimator into GRPO improves both training stability and final performance, highlighting the importance of principled policy divergence constraints in policy optimization.