ChatPaper.aiChatPaper

Een uniform kader voor het herzien van beleidsdivergentiematen in GRPO

A Unified Framework for Rethinking Policy Divergence Measures in GRPO

February 5, 2026
Auteurs: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
cs.AI

Samenvatting

Versterkend Leren met Geverifieerde Beloning (RLVR) is naar voren gekomen als een cruciaal paradigma voor het verbeteren van de redeneervermogens van Grote Taalmodellen (LLM's). De meeste bestaande RLVR-methoden, zoals GRPO en zijn varianten, garanderen stabiele updates door de beleidsdivergentie te beperken via het clippen van waarschijnlijkheidsratio's. Dit artikel introduceert een uniform kader voor clipping dat bestaande methoden karakteriseert via een algemeen begrip van beleidsdivergentie, dat zowel waarschijnlijkheidsratio's als Kullback-Leibler (KL)-divergenties omvat en zich uitstrekt tot alternatieve maten. Het kader biedt een principiële basis voor het systematisch analyseren van hoe verschillende beleidsdivergentiematen exploratie en prestaties beïnvloeden. Verder identificeren we de KL3-schatter, een variantie-gereduceerde Monte Carlo-schatter van de KL-divergentie, als een belangrijke beleidsdivergentiebeperking. We tonen theoretisch aan dat de op KL3 gebaseerde beperking wiskundig equivalent is aan een asymmetrische op ratio's gebaseerde clipping die waarschijnlijkheidsmassa herverdeelt naar acties met een hoge betrouwbaarheid, wat sterkere exploratie bevordert terwijl de eenvoud van GRPO-achtige methoden behouden blijft. Empirische resultaten op wiskundige redeneerbenchmarks tonen aan dat het integreren van de KL3-schatter in GRPO zowel de trainstabiliteit als de uiteindelijke prestaties verbetert, wat het belang van principiële beleidsdivergentiebeperkingen in beleidsoptimalisatie benadrukt.
English
Reinforcement Learning with Verified Reward (RLVR) has emerged as a critical paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). Most existing RLVR methods, such as GRPO and its variants, ensure stable updates by constraining policy divergence through clipping likelihood ratios. This paper introduces a unified clipping framework that characterizes existing methods via a general notion of policy divergence, encompassing both likelihood ratios and Kullback-Leibler (KL) divergences and extending to alternative measures. The framework provides a principled foundation for systematically analyzing how different policy divergence measures affect exploration and performance. We further identify the KL3 estimator, a variance-reduced Monte Carlo estimator of the KL divergence, as a key policy divergence constraint. We theoretically demonstrate that the KL3-based constraint is mathematically equivalent to an asymmetric ratio-based clipping that reallocates probability mass toward high-confidence actions, promoting stronger exploration while retaining the simplicity of GRPO-style methods. Empirical results on mathematical reasoning benchmarks demonstrate that incorporating the KL3 estimator into GRPO improves both training stability and final performance, highlighting the importance of principled policy divergence constraints in policy optimization.
PDF23February 7, 2026