Унифицированная система переосмысления мер расхождения политик в GRPO
A Unified Framework for Rethinking Policy Divergence Measures in GRPO
February 5, 2026
Авторы: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
cs.AI
Аннотация
Подкрепленное обучение с верифицированными вознаграждениями (RLVR) стало важной парадигмой для развития способностей крупных языковых моделей (LLM) к рассуждению. Большинство существующих методов RLVR, таких как GRPO и их варианты, обеспечивают стабильные обновления, ограничивая расхождение политик с помощью отсечки отношений правдоподобия. В данной статье представлена унифицированная框架 отсечки, которая характеризует существующие методы через общее понятие расхождения политик, охватывающее как отношения правдоподобия, так и расхождения Кульбака-Лейблера (KL), и распространяющееся на альтернативные меры. Эта框架 обеспечивает принципиальную основу для систематического анализа того, как различные меры расхождения политик влияют на исследование и производительность. Мы дополнительно идентифицируем оценку KL3 — оценку Монте-Карло расхождения KL с уменьшенной дисперсией — как ключевое ограничение на расхождение политик. Теоретически мы демонстрируем, что ограничение на основе KL3 математически эквивалентно асимметричной отсечке на основе отношений, которая перераспределяет вероятностную массу в сторону действий с высокой уверенностью, способствуя более активному исследованию при сохранении простоты методов в стиле GRPO. Эмпирические результаты на эталонах математических рассуждений показывают, что включение оценки KL3 в GRPO улучшает как стабильность обучения, так и итоговую производительность, подчеркивая важность принципиальных ограничений на расхождение политик в оптимизации политик.
English
Reinforcement Learning with Verified Reward (RLVR) has emerged as a critical paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). Most existing RLVR methods, such as GRPO and its variants, ensure stable updates by constraining policy divergence through clipping likelihood ratios. This paper introduces a unified clipping framework that characterizes existing methods via a general notion of policy divergence, encompassing both likelihood ratios and Kullback-Leibler (KL) divergences and extending to alternative measures. The framework provides a principled foundation for systematically analyzing how different policy divergence measures affect exploration and performance. We further identify the KL3 estimator, a variance-reduced Monte Carlo estimator of the KL divergence, as a key policy divergence constraint. We theoretically demonstrate that the KL3-based constraint is mathematically equivalent to an asymmetric ratio-based clipping that reallocates probability mass toward high-confidence actions, promoting stronger exploration while retaining the simplicity of GRPO-style methods. Empirical results on mathematical reasoning benchmarks demonstrate that incorporating the KL3 estimator into GRPO improves both training stability and final performance, highlighting the importance of principled policy divergence constraints in policy optimization.