Group-Relative REINFORCE ist heimlich ein Off-Policy-Algorithmus: Entmystifizierung einiger Mythen über GRPO und seine Verwandten
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
September 29, 2025
papers.authors: Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding
cs.AI
papers.abstract
Off-Policy Reinforcement Learning (RL) für große Sprachmodelle (LLMs) gewinnt zunehmend an Interesse, angetrieben durch praktische Einschränkungen in realen Anwendungen, die Komplexität der LLM-RL-Infrastruktur und die Notwendigkeit weiterer Innovationen in RL-Methoden. Während klassisches REINFORCE und seine modernen Varianten wie Group Relative Policy Optimization (GRPO) typischerweise als On-Policy-Algorithmen mit begrenzter Toleranz gegenüber Off-Policy-Verhalten betrachtet werden, präsentieren wir in dieser Arbeit eine grundlegende Herleitung für gruppenrelatives REINFORCE ohne Annahme einer spezifischen Trainingsdatenverteilung, die zeigt, dass es eine native Off-Policy-Interpretation zulässt. Diese Perspektive führt zu zwei allgemeinen Prinzipien für die Anpassung von REINFORCE an Off-Policy-Szenarien: Regularisierung von Policy-Updates und aktive Gestaltung der Datenverteilung. Unsere Analyse entmystifiziert einige Mythen über die Rollen von Importance Sampling und Clipping in GRPO, vereinheitlicht und reinterpretiert zwei aktuelle Algorithmen – Online Policy Mirror Descent (OPMD) und Asymmetric REINFORCE (AsymRE) – als regularisierte Formen des REINFORCE-Verlusts und bietet eine theoretische Rechtfertigung für scheinbar heuristische Datengewichtungsstrategien. Unsere Erkenntnisse führen zu umsetzbaren Einsichten, die durch umfangreiche empirische Studien validiert werden, und eröffnen neue Möglichkeiten für prinzipielle Algorithmusgestaltung im Off-Policy-RL für LLMs. Der Quellcode für diese Arbeit ist verfügbar unter https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
English
Off-policy reinforcement learning (RL) for large language models (LLMs) is
attracting growing interest, driven by practical constraints in real-world
applications, the complexity of LLM-RL infrastructure, and the need for further
innovations of RL methodologies. While classic REINFORCE and its modern
variants like Group Relative Policy Optimization (GRPO) are typically regarded
as on-policy algorithms with limited tolerance of off-policyness, we present in
this work a first-principles derivation for group-relative REINFORCE without
assuming a specific training data distribution, showing that it admits a native
off-policy interpretation. This perspective yields two general principles for
adapting REINFORCE to off-policy settings: regularizing policy updates, and
actively shaping the data distribution. Our analysis demystifies some myths
about the roles of importance sampling and clipping in GRPO, unifies and
reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and
Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss,
and offers theoretical justification for seemingly heuristic data-weighting
strategies. Our findings lead to actionable insights that are validated with
extensive empirical studies, and open up new opportunities for principled
algorithm design in off-policy RL for LLMs. Source code for this work is
available at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.