Group-Relative REINFORCE — это скрыто off-policy алгоритм: Развенчание некоторых мифов о GRPO и его аналогах
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
September 29, 2025
Авторы: Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding
cs.AI
Аннотация
Обучение с подкреплением вне политики (off-policy reinforcement learning, RL) для больших языковых моделей (LLMs) привлекает всё больше внимания, что обусловлено практическими ограничениями в реальных приложениях, сложностью инфраструктуры LLM-RL и необходимостью дальнейших инноваций в методологиях RL. Хотя классический алгоритм REINFORCE и его современные варианты, такие как Group Relative Policy Optimization (GRPO), обычно рассматриваются как алгоритмы на политике (on-policy) с ограниченной толерантностью к внеполитичности, в данной работе мы представляем вывод группового относительного REINFORCE из первых принципов без предположения о конкретном распределении обучающих данных, показывая, что он допускает естественную интерпретацию вне политики. Этот подход приводит к двум общим принципам адаптации REINFORCE к условиям вне политики: регуляризации обновлений политики и активному формированию распределения данных. Наш анализ развенчивает некоторые мифы о роли важностного сэмплирования и обрезки в GRPO, объединяет и переосмысливает два недавних алгоритма — Online Policy Mirror Descent (OPMD) и Asymmetric REINFORCE (AsymRE) — как регуляризованные формы потерь REINFORCE и предлагает теоретическое обоснование для, казалось бы, эвристических стратегий взвешивания данных. Наши выводы приводят к практическим рекомендациям, которые подтверждаются обширными эмпирическими исследованиями, и открывают новые возможности для принципиального проектирования алгоритмов в RL вне политики для LLMs. Исходный код для данной работы доступен по адресу https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
English
Off-policy reinforcement learning (RL) for large language models (LLMs) is
attracting growing interest, driven by practical constraints in real-world
applications, the complexity of LLM-RL infrastructure, and the need for further
innovations of RL methodologies. While classic REINFORCE and its modern
variants like Group Relative Policy Optimization (GRPO) are typically regarded
as on-policy algorithms with limited tolerance of off-policyness, we present in
this work a first-principles derivation for group-relative REINFORCE without
assuming a specific training data distribution, showing that it admits a native
off-policy interpretation. This perspective yields two general principles for
adapting REINFORCE to off-policy settings: regularizing policy updates, and
actively shaping the data distribution. Our analysis demystifies some myths
about the roles of importance sampling and clipping in GRPO, unifies and
reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and
Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss,
and offers theoretical justification for seemingly heuristic data-weighting
strategies. Our findings lead to actionable insights that are validated with
extensive empirical studies, and open up new opportunities for principled
algorithm design in off-policy RL for LLMs. Source code for this work is
available at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.