El Algoritmo Group-Relative REINFORCE Es en Realidad un Algoritmo Fuera de Política: Desmitificando Algunos Mitos Sobre GRPO y Sus Similares
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends
September 29, 2025
Autores: Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding
cs.AI
Resumen
El aprendizaje por refuerzo (RL) fuera de política (off-policy) para modelos de lenguaje de gran escala (LLMs) está atrayendo un interés creciente, impulsado por las limitaciones prácticas en aplicaciones del mundo real, la complejidad de la infraestructura de RL para LLMs y la necesidad de innovaciones adicionales en las metodologías de RL. Aunque el clásico REINFORCE y sus variantes modernas como la Optimización de Política Relativa de Grupo (GRPO) se consideran típicamente algoritmos dentro de política (on-policy) con una tolerancia limitada a la fuera de política (off-policyness), en este trabajo presentamos una derivación desde primeros principios para REINFORCE relativo a grupo sin asumir una distribución específica de datos de entrenamiento, demostrando que admite una interpretación nativa fuera de política. Esta perspectiva ofrece dos principios generales para adaptar REINFORCE a entornos fuera de política: regularizar las actualizaciones de la política y moldear activamente la distribución de datos. Nuestro análisis desmitifica algunos mitos sobre los roles del muestreo de importancia y el recorte en GRPO, unifica y reinterpreta dos algoritmos recientes —Descenso de Espejo de Política en Línea (OPMD) y REINFORCE Asimétrico (AsymRE)— como formas regularizadas de la pérdida de REINFORCE, y ofrece una justificación teórica para estrategias aparentemente heurísticas de ponderación de datos. Nuestros hallazgos conducen a ideas prácticas que se validan con estudios empíricos extensos y abren nuevas oportunidades para el diseño de algoritmos fundamentados en RL fuera de política para LLMs. El código fuente de este trabajo está disponible en https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
English
Off-policy reinforcement learning (RL) for large language models (LLMs) is
attracting growing interest, driven by practical constraints in real-world
applications, the complexity of LLM-RL infrastructure, and the need for further
innovations of RL methodologies. While classic REINFORCE and its modern
variants like Group Relative Policy Optimization (GRPO) are typically regarded
as on-policy algorithms with limited tolerance of off-policyness, we present in
this work a first-principles derivation for group-relative REINFORCE without
assuming a specific training data distribution, showing that it admits a native
off-policy interpretation. This perspective yields two general principles for
adapting REINFORCE to off-policy settings: regularizing policy updates, and
actively shaping the data distribution. Our analysis demystifies some myths
about the roles of importance sampling and clipping in GRPO, unifies and
reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and
Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss,
and offers theoretical justification for seemingly heuristic data-weighting
strategies. Our findings lead to actionable insights that are validated with
extensive empirical studies, and open up new opportunities for principled
algorithm design in off-policy RL for LLMs. Source code for this work is
available at
https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.