Le REINFORCE Relatif au Groupe est Secrètement un Algorithme Hors-Politique : Démystification de Certains Mythes sur GRPO et ses Proches
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
September 29, 2025
papers.authors: Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding
cs.AI
papers.abstract
L'apprentissage par renforcement hors politique (off-policy RL) pour les grands modèles de langage (LLMs) suscite un intérêt croissant, motivé par les contraintes pratiques des applications réelles, la complexité de l'infrastructure LLM-RL et la nécessité d'innovations supplémentaires dans les méthodologies de RL. Bien que l'algorithme classique REINFORCE et ses variantes modernes comme l'Optimisation Relative de Politique par Groupe (GRPO) soient généralement considérés comme des algorithmes en politique (on-policy) avec une tolérance limitée à l'hors politique, nous présentons dans ce travail une dérivation à partir des premiers principes pour REINFORCE relatif au groupe sans supposer une distribution spécifique des données d'entraînement, montrant qu'il admet une interprétation native hors politique. Cette perspective dégage deux principes généraux pour adapter REINFORCE aux contextes hors politique : la régularisation des mises à jour de la politique et la modulation active de la distribution des données. Notre analyse démystifie certains mythes concernant les rôles de l'échantillonnage d'importance et du clipping dans GRPO, unifie et réinterprète deux algorithmes récents — la Descente de Miroir de Politique en Ligne (OPMD) et REINFORCE Asymétrique (AsymRE) — comme des formes régularisées de la perte REINFORCE, et offre une justification théorique pour des stratégies de pondération des données apparemment heuristiques. Nos résultats conduisent à des insights actionnables validés par des études empiriques approfondies et ouvrent de nouvelles opportunités pour la conception d'algorithmes fondés sur des principes dans le RL hors politique pour les LLMs. Le code source de ce travail est disponible à l'adresse suivante : https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
English
Off-policy reinforcement learning (RL) for large language models (LLMs) is
attracting growing interest, driven by practical constraints in real-world
applications, the complexity of LLM-RL infrastructure, and the need for further
innovations of RL methodologies. While classic REINFORCE and its modern
variants like Group Relative Policy Optimization (GRPO) are typically regarded
as on-policy algorithms with limited tolerance of off-policyness, we present in
this work a first-principles derivation for group-relative REINFORCE without
assuming a specific training data distribution, showing that it admits a native
off-policy interpretation. This perspective yields two general principles for
adapting REINFORCE to off-policy settings: regularizing policy updates, and
actively shaping the data distribution. Our analysis demystifies some myths
about the roles of importance sampling and clipping in GRPO, unifies and
reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and
Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss,
and offers theoretical justification for seemingly heuristic data-weighting
strategies. Our findings lead to actionable insights that are validated with
extensive empirical studies, and open up new opportunities for principled
algorithm design in off-policy RL for LLMs. Source code for this work is
available at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.