ChatPaper.aiChatPaper

GRPOにおける政策発散指標の再考に向けた統一的枠組み

A Unified Framework for Rethinking Policy Divergence Measures in GRPO

February 5, 2026
著者: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
cs.AI

要旨

検証済み報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させるための重要なパラダイムとして登場した。既存のRLVR手法の多く(GRPOとその変種など)は、尤度比のクリッピングにより方策の乖離を制約することで、安定した更新を保証している。本論文では、既存手法を一般化された方策乖離の概念を通じて特徴づける統一クリッピングフレームワークを提案する。このフレームワークは、尤度比とKLダイバージェンスの両方を含み、代替的な測度へと拡張可能である。これにより、異なる方策乖離測度が探索と性能に与える影響を体系的に分析するための原理的な基盤が提供される。さらに我々は、KLダイバージェンスの分散低減型モンテカルロ推定量であるKL3推定量を、重要な方策乖離制約として特定する。理論的に、KL3に基づく制約は、確率質量を高信頼度の行動へ再分配する非対称な比率ベースのクリッピングと数学的に等価であることを示し、GRPOスタイルの手法の単純さを保ちつつ、より強力な探索を促進する。数学的推論ベンチマークにおける実験結果は、KL3推定量をGRPOに組み込むことで、学習の安定性と最終性能の両方が改善されることを実証し、方策最適化における原理に基づいた方策乖離制約の重要性を明らかにする。
English
Reinforcement Learning with Verified Reward (RLVR) has emerged as a critical paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). Most existing RLVR methods, such as GRPO and its variants, ensure stable updates by constraining policy divergence through clipping likelihood ratios. This paper introduces a unified clipping framework that characterizes existing methods via a general notion of policy divergence, encompassing both likelihood ratios and Kullback-Leibler (KL) divergences and extending to alternative measures. The framework provides a principled foundation for systematically analyzing how different policy divergence measures affect exploration and performance. We further identify the KL3 estimator, a variance-reduced Monte Carlo estimator of the KL divergence, as a key policy divergence constraint. We theoretically demonstrate that the KL3-based constraint is mathematically equivalent to an asymmetric ratio-based clipping that reallocates probability mass toward high-confidence actions, promoting stronger exploration while retaining the simplicity of GRPO-style methods. Empirical results on mathematical reasoning benchmarks demonstrate that incorporating the KL3 estimator into GRPO improves both training stability and final performance, highlighting the importance of principled policy divergence constraints in policy optimization.
PDF23February 7, 2026