O REINFORCE Relativo ao Grupo É Secretamente um Algoritmo Off-Policy: Desmistificando Alguns Mitos Sobre o GRPO e Seus Parentes
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
September 29, 2025
Autores: Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding
cs.AI
Resumo
O aprendizado por reforço off-policy (RL) para grandes modelos de linguagem (LLMs) está atraindo um interesse crescente, impulsionado por restrições práticas em aplicações do mundo real, pela complexidade da infraestrutura de LLM-RL e pela necessidade de inovações adicionais nas metodologias de RL. Embora o clássico REINFORCE e suas variantes modernas, como a Otimização de Política Relativa de Grupo (GRPO), sejam tipicamente considerados algoritmos on-policy com tolerância limitada ao off-policy, apresentamos neste trabalho uma derivação de princípios fundamentais para o REINFORCE relativo de grupo sem assumir uma distribuição específica de dados de treinamento, mostrando que ele admite uma interpretação nativa de off-policy. Essa perspectiva resulta em dois princípios gerais para adaptar o REINFORCE a configurações off-policy: regularizar atualizações de política e moldar ativamente a distribuição de dados. Nossa análise desmistifica alguns mitos sobre os papéis da amostragem de importância e do recorte no GRPO, unifica e reinterpreta dois algoritmos recentes -- o Descenso de Espelho de Política Online (OPMD) e o REINFORCE Assimétrico (AsymRE) -- como formas regularizadas da perda do REINFORCE, e oferece justificativa teórica para estratégias aparentemente heurísticas de ponderação de dados. Nossas descobertas levam a insights acionáveis que são validados com extensos estudos empíricos e abrem novas oportunidades para o design de algoritmos fundamentados em RL off-policy para LLMs. O código-fonte deste trabalho está disponível em https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
English
Off-policy reinforcement learning (RL) for large language models (LLMs) is
attracting growing interest, driven by practical constraints in real-world
applications, the complexity of LLM-RL infrastructure, and the need for further
innovations of RL methodologies. While classic REINFORCE and its modern
variants like Group Relative Policy Optimization (GRPO) are typically regarded
as on-policy algorithms with limited tolerance of off-policyness, we present in
this work a first-principles derivation for group-relative REINFORCE without
assuming a specific training data distribution, showing that it admits a native
off-policy interpretation. This perspective yields two general principles for
adapting REINFORCE to off-policy settings: regularizing policy updates, and
actively shaping the data distribution. Our analysis demystifies some myths
about the roles of importance sampling and clipping in GRPO, unifies and
reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and
Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss,
and offers theoretical justification for seemingly heuristic data-weighting
strategies. Our findings lead to actionable insights that are validated with
extensive empirical studies, and open up new opportunities for principled
algorithm design in off-policy RL for LLMs. Source code for this work is
available at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.