Ein einheitlicher Rahmen zur Neubetrachtung von Politikkonvergenzmaßen in GRPO
A Unified Framework for Rethinking Policy Divergence Measures in GRPO
February 5, 2026
papers.authors: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
cs.AI
papers.abstract
Verstärkendes Lernen mit verifizierter Belohnung (RLVR) hat sich als entscheidendes Paradigma für die Weiterentwicklung der reasoning-Fähigkeiten von Large Language Models (LLMs) etabliert. Die meisten bestehenden RLVR-Methoden, wie GRPO und seine Varianten, gewährleisten stabile Updates, indem sie die Policy-Divergenz durch das Clippen von Likelihood-Ratios beschränken. Dieses Papier stellt einen vereinheitlichten Clipping-Rahmen vor, der bestehende Methoden über einen allgemeinen Begriff der Policy-Divergenz charakterisiert. Dieser umfasst sowohl Likelihood-Ratios als auch Kullback-Leibler (KL)-Divergenzen und erstreckt sich auf alternative Maße. Der Rahmen bietet eine prinzipiengeleitete Grundlage für die systematische Analyse, wie verschiedene Policy-Divergenz-Maße Exploration und Leistung beeinflussen. Wir identifizieren weiterhin den KL3-Schätzer, einen varianzreduzierten Monte-Carlo-Schätzer der KL-Divergenz, als eine zentrale Policy-Divergenz-Beschränkung. Wir zeigen theoretisch, dass die auf KL3 basierende Beschränkung mathematisch äquivalent zu einem asymmetrischen, ratio-basierten Clipping ist, das die Wahrscheinlichkeitsmasse hin zu Aktionen mit hohem Konfidenzniveau umverteilt. Dies fördert eine stärkere Exploration, behält aber gleichzeitig die Einfachheit von GRPO-artigen Methoden bei. Empirische Ergebnisse auf Benchmarks für mathematisches Reasoning demonstrieren, dass die Integration des KL3-Schätzers in GRPO sowohl die Trainingsstabilität als auch die Endleistung verbessert, was die Bedeutung prinzipiengeleiteter Policy-Divergenz-Beschränkungen in der Policy-Optimierung unterstreicht.
English
Reinforcement Learning with Verified Reward (RLVR) has emerged as a critical paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). Most existing RLVR methods, such as GRPO and its variants, ensure stable updates by constraining policy divergence through clipping likelihood ratios. This paper introduces a unified clipping framework that characterizes existing methods via a general notion of policy divergence, encompassing both likelihood ratios and Kullback-Leibler (KL) divergences and extending to alternative measures. The framework provides a principled foundation for systematically analyzing how different policy divergence measures affect exploration and performance. We further identify the KL3 estimator, a variance-reduced Monte Carlo estimator of the KL divergence, as a key policy divergence constraint. We theoretically demonstrate that the KL3-based constraint is mathematically equivalent to an asymmetric ratio-based clipping that reallocates probability mass toward high-confidence actions, promoting stronger exploration while retaining the simplicity of GRPO-style methods. Empirical results on mathematical reasoning benchmarks demonstrate that incorporating the KL3 estimator into GRPO improves both training stability and final performance, highlighting the importance of principled policy divergence constraints in policy optimization.