El Algoritmo Group-Relative REINFORCE Es en Realidad un Algoritmo Fuera de Política: Desmitificando Algunos Mitos Sobre GRPO y Sus Similares

Resumen

El aprendizaje por refuerzo (RL) fuera de política (off-policy) para modelos de lenguaje de gran escala (LLMs) está atrayendo un interés creciente, impulsado por las limitaciones prácticas en aplicaciones del mundo real, la complejidad de la infraestructura de RL para LLMs y la necesidad de innovaciones adicionales en las metodologías de RL. Aunque el clásico REINFORCE y sus variantes modernas como la Optimización de Política Relativa de Grupo (GRPO) se consideran típicamente algoritmos dentro de política (on-policy) con una tolerancia limitada a la fuera de política (off-policyness), en este trabajo presentamos una derivación desde primeros principios para REINFORCE relativo a grupo sin asumir una distribución específica de datos de entrenamiento, demostrando que admite una interpretación nativa fuera de política. Esta perspectiva ofrece dos principios generales para adaptar REINFORCE a entornos fuera de política: regularizar las actualizaciones de la política y moldear activamente la distribución de datos. Nuestro análisis desmitifica algunos mitos sobre los roles del muestreo de importancia y el recorte en GRPO, unifica y reinterpreta dos algoritmos recientes —Descenso de Espejo de Política en Línea (OPMD) y REINFORCE Asimétrico (AsymRE)— como formas regularizadas de la pérdida de REINFORCE, y ofrece una justificación teórica para estrategias aparentemente heurísticas de ponderación de datos. Nuestros hallazgos conducen a ideas prácticas que se validan con estudios empíricos extensos y abren nuevas oportunidades para el diseño de algoritmos fundamentados en RL fuera de política para LLMs. El código fuente de este trabajo está disponible en https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.

English

Off-policy reinforcement learning (RL) for large language models (LLMs) is attracting growing interest, driven by practical constraints in real-world applications, the complexity of LLM-RL infrastructure, and the need for further innovations of RL methodologies. While classic REINFORCE and its modern variants like Group Relative Policy Optimization (GRPO) are typically regarded as on-policy algorithms with limited tolerance of off-policyness, we present in this work a first-principles derivation for group-relative REINFORCE without assuming a specific training data distribution, showing that it admits a native off-policy interpretation. This perspective yields two general principles for adapting REINFORCE to off-policy settings: regularizing policy updates, and actively shaping the data distribution. Our analysis demystifies some myths about the roles of importance sampling and clipping in GRPO, unifies and reinterprets two recent algorithms -- Online Policy Mirror Descent (OPMD) and Asymmetric REINFORCE (AsymRE) -- as regularized forms of the REINFORCE loss, and offers theoretical justification for seemingly heuristic data-weighting strategies. Our findings lead to actionable insights that are validated with extensive empirical studies, and open up new opportunities for principled algorithm design in off-policy RL for LLMs. Source code for this work is available at https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.

El Algoritmo Group-Relative REINFORCE Es en Realidad un Algoritmo Fuera de Política: Desmitificando Algunos Mitos Sobre GRPO y Sus Similares

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Resumen

Support