Group-Relative REINFORCE Is Stiekem een Off-Policy Algoritme: Het Ontrafelen van Enkele Mythes Over GRPO en Zijn Vrienden
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
September 29, 2025
Auteurs: Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding
cs.AI
Samenvatting
Off-policy reinforcement learning (RL) voor grote taalmodellen (LLMs) trekt steeds meer aandacht, aangewakkerd door praktische beperkingen in real-world toepassingen, de complexiteit van LLM-RL-infrastructuur en de behoefte aan verdere innovaties van RL-methodologieën. Hoewel klassieke REINFORCE en zijn moderne varianten zoals Group Relative Policy Optimization (GRPO) doorgaans worden beschouwd als on-policy algoritmen met een beperkte tolerantie voor off-policyness, presenteren we in dit werk een eerste-principe afleiding voor group-relative REINFORCE zonder een specifieke trainingsdatadistributie aan te nemen, waaruit blijkt dat het een native off-policy interpretatie toelaat. Dit perspectief levert twee algemene principes op voor het aanpassen van REINFORCE aan off-policy instellingen: het regulariseren van policy-updates en het actief vormgeven van de datadistributie. Onze analyse ontkracht enkele mythes over de rollen van importance sampling en clipping in GRPO, verenigt en herinterpreteert twee recente algoritmen – Online Policy Mirror Descent (OPMD) en Asymmetric REINFORCE (AsymRE) – als geregulariseerde vormen van het REINFORCE-verlies, en biedt theoretische rechtvaardiging voor schijnbaar heuristische data-wegingstrategieën. Onze bevindingen leiden tot praktische inzichten die worden gevalideerd met uitgebreide empirische studies, en openen nieuwe mogelijkheden voor principieel algoritmeontwerp in off-policy RL voor LLMs. De broncode voor dit werk is beschikbaar op https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
English
Off-policy reinforcement learning (RL) for large language models (LLMs) is
attracting growing interest, driven by practical constraints in real-world
applications, the complexity of LLM-RL infrastructure, and the need for further
innovations of RL methodologies. While classic REINFORCE and its modern
variants like Group Relative Policy Optimization (GRPO) are typically regarded
as on-policy algorithms with limited tolerance of off-policyness, we present in
this work a first-principles derivation for group-relative REINFORCE without
assuming a specific training data distribution, showing that it admits a native
off-policy interpretation. This perspective yields two general principles for
adapting REINFORCE to off-policy settings: regularizing policy updates, and
actively shaping the data distribution. Our analysis demystifies some myths
about the roles of importance sampling and clipping in GRPO, unifies and
reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and
Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss,
and offers theoretical justification for seemingly heuristic data-weighting
strategies. Our findings lead to actionable insights that are validated with
extensive empirical studies, and open up new opportunities for principled
algorithm design in off-policy RL for LLMs. Source code for this work is
available at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.