グループ相対的REINFORCEは密かにオフポリシーアルゴリズムである: GRPOとその仲間に関するいくつかの神話を解明する
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
September 29, 2025
著者: Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding
cs.AI
要旨
大規模言語モデル(LLM)におけるオフポリシー強化学習(RL)は、実世界アプリケーションにおける実用的な制約、LLM-RLインフラの複雑さ、そしてRL手法のさらなる革新の必要性によって、ますます注目を集めています。古典的なREINFORCEやその現代的な変種であるGroup Relative Policy Optimization(GRPO)は、通常、オフポリシー性に対する許容度が限られたオンポリシーアルゴリズムと見なされていますが、本研究では、特定の訓練データ分布を仮定せずに、グループ相対REINFORCEの第一原理的な導出を示し、それがネイティブなオフポリシー解釈を許容することを示します。この視点から、REINFORCEをオフポリシー設定に適応させるための2つの一般原則が得られます:ポリシー更新の正則化と、データ分布の積極的な形成です。我々の分析は、GRPOにおける重要度サンプリングとクリッピングの役割に関するいくつかの神話を解き明かし、最近の2つのアルゴリズム——Online Policy Mirror Descent(OPMD)とAsymmetric REINFORCE(AsymRE)——をREINFORCE損失の正則化された形式として統一し再解釈し、一見ヒューリスティックなデータ重み付け戦略に対する理論的正当化を提供します。我々の知見は、広範な実証研究によって検証された実践的な洞察をもたらし、LLMのためのオフポリシーRLにおける原理に基づいたアルゴリズム設計の新たな機会を開拓します。本研究のソースコードは、https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k で公開されています。
English
Off-policy reinforcement learning (RL) for large language models (LLMs) is
attracting growing interest, driven by practical constraints in real-world
applications, the complexity of LLM-RL infrastructure, and the need for further
innovations of RL methodologies. While classic REINFORCE and its modern
variants like Group Relative Policy Optimization (GRPO) are typically regarded
as on-policy algorithms with limited tolerance of off-policyness, we present in
this work a first-principles derivation for group-relative REINFORCE without
assuming a specific training data distribution, showing that it admits a native
off-policy interpretation. This perspective yields two general principles for
adapting REINFORCE to off-policy settings: regularizing policy updates, and
actively shaping the data distribution. Our analysis demystifies some myths
about the roles of importance sampling and clipping in GRPO, unifies and
reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and
Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss,
and offers theoretical justification for seemingly heuristic data-weighting
strategies. Our findings lead to actionable insights that are validated with
extensive empirical studies, and open up new opportunities for principled
algorithm design in off-policy RL for LLMs. Source code for this work is
available at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.