Group-Relative REINFORCE è Segretamente un Algoritmo Off-Policy: Sfatare Alcuni Miti su GRPO e i Suoi Parenti
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
September 29, 2025
Autori: Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding
cs.AI
Abstract
L'apprendimento per rinforzo off-policy (RL) per i grandi modelli linguistici (LLM) sta attirando un interesse crescente, spinto dai vincoli pratici nelle applicazioni del mondo reale, dalla complessità dell'infrastruttura LLM-RL e dalla necessità di ulteriori innovazioni nelle metodologie RL. Sebbene il classico REINFORCE e le sue varianti moderne come l'ottimizzazione relativa di gruppo delle politiche (GRPO) siano tipicamente considerati algoritmi on-policy con una tolleranza limitata all'off-policy, in questo lavoro presentiamo una derivazione dai principi primi per il REINFORCE relativo di gruppo senza assumere una specifica distribuzione dei dati di addestramento, dimostrando che ammette un'interpretazione nativa off-policy. Questa prospettiva fornisce due principi generali per adattare REINFORCE a contesti off-policy: regolarizzare gli aggiornamenti delle politiche e modellare attivamente la distribuzione dei dati. La nostra analisi demistifica alcuni miti sui ruoli del campionamento di importanza e del clipping nel GRPO, unifica e reinterpreta due algoritmi recenti -- il Mirror Descent delle politiche online (OPMD) e il REINFORCE asimmetrico (AsymRE) -- come forme regolarizzate della funzione di perdita REINFORCE, e offre una giustificazione teorica per strategie apparentemente euristiche di ponderazione dei dati. Le nostre scoperte portano a intuizioni pratiche che sono validate con ampi studi empirici e aprono nuove opportunità per la progettazione di algoritmi basati su principi nell'RL off-policy per LLM. Il codice sorgente di questo lavoro è disponibile all'indirizzo https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
English
Off-policy reinforcement learning (RL) for large language models (LLMs) is
attracting growing interest, driven by practical constraints in real-world
applications, the complexity of LLM-RL infrastructure, and the need for further
innovations of RL methodologies. While classic REINFORCE and its modern
variants like Group Relative Policy Optimization (GRPO) are typically regarded
as on-policy algorithms with limited tolerance of off-policyness, we present in
this work a first-principles derivation for group-relative REINFORCE without
assuming a specific training data distribution, showing that it admits a native
off-policy interpretation. This perspective yields two general principles for
adapting REINFORCE to off-policy settings: regularizing policy updates, and
actively shaping the data distribution. Our analysis demystifies some myths
about the roles of importance sampling and clipping in GRPO, unifies and
reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and
Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss,
and offers theoretical justification for seemingly heuristic data-weighting
strategies. Our findings lead to actionable insights that are validated with
extensive empirical studies, and open up new opportunities for principled
algorithm design in off-policy RL for LLMs. Source code for this work is
available at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.