ChatPaper.aiChatPaper

GRPO에서 정책 발산 측정 방법에 대한 통합적 재고 프레임워크

A Unified Framework for Rethinking Policy Divergence Measures in GRPO

February 5, 2026
저자: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
cs.AI

초록

검증된 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 중요한 패러다임으로 부상하고 있다. GRPO 및 그 변형들과 같은 기존 RLVR 방법 대부분은 가능도 비율 클리핑을 통해 정책 발산을 제한함으로써 안정적인 업데이트를 보장한다. 본 논문은 일반적인 정책 발산 개념을 통해 기존 방법들을 체계화하는 통합 클리핑 프레임워크를 소개한다. 이 프레임워크는 가능도 비율과 쿨백-라이블러(KL) 발산을 모두 포함하고 대체 측정 지표로 확장되는 일반적인 정책 발산 개념을 기반으로 한다. 이를 통해 서로 다른 정책 발산 측정 방식이 탐험과 성능에 미치는 영향을 체계적으로 분석할 수 있는 원칙적인 기초를 마련한다. 나아가 우리는 KL 발산의 분산 감소 몬테카를로 추정량인 KL3 추정량을 핵심 정책 발산 제약 조건으로 규명한다. 우리는 이론적으로 KL3 기반 제약이 높은 신뢰도를 가진 행동으로 확률 질량을 재분배하는 비대칭 비율 기반 클리핑과 수학적으로 동등함을 증명하며, GRPO 스타일 방법의 단순성을 유지하면서 더 강력한 탐험을 촉진함을 보인다. 수학적 추론 벤치마크에서의 실험 결과는 GRPO에 KL3 추정량을 통합했을 때 훈련 안정성과 최종 성능이 모두 개선됨을 입증하여, 정책 최적화에서 원칙적인 정책 발산 제약의 중요성을 부각시킨다.
English
Reinforcement Learning with Verified Reward (RLVR) has emerged as a critical paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). Most existing RLVR methods, such as GRPO and its variants, ensure stable updates by constraining policy divergence through clipping likelihood ratios. This paper introduces a unified clipping framework that characterizes existing methods via a general notion of policy divergence, encompassing both likelihood ratios and Kullback-Leibler (KL) divergences and extending to alternative measures. The framework provides a principled foundation for systematically analyzing how different policy divergence measures affect exploration and performance. We further identify the KL3 estimator, a variance-reduced Monte Carlo estimator of the KL divergence, as a key policy divergence constraint. We theoretically demonstrate that the KL3-based constraint is mathematically equivalent to an asymmetric ratio-based clipping that reallocates probability mass toward high-confidence actions, promoting stronger exploration while retaining the simplicity of GRPO-style methods. Empirical results on mathematical reasoning benchmarks demonstrate that incorporating the KL3 estimator into GRPO improves both training stability and final performance, highlighting the importance of principled policy divergence constraints in policy optimization.
PDF23February 7, 2026