Se Necesitan Dos: Tu GRPO Es Secretamente DPO

Resumen

La Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés) es un algoritmo destacado de aprendizaje por refuerzo para el ajuste posterior de Modelos de Lenguaje a Gran Escala (LLMs). Generalmente se cree que GRPO requiere un tamaño de grupo grande para garantizar un entrenamiento estable mediante una estimación estadística precisa, lo que conlleva un costo computacional significativo. En este trabajo, cuestionamos esta suposición al reformular GRPO como una forma de aprendizaje contrastivo, lo que revela una conexión fundamental con la Optimización Directa de Preferencias (DPO). Motivados por el éxito empírico de DPO, investigamos el caso mínimo de dos ejecuciones (2-GRPO), una configuración previamente considerada inviable. Proporcionamos un análisis teórico riguroso para validar 2-GRPO y demostramos empíricamente que alcanza un rendimiento comparable al de 16-GRPO, a pesar de utilizar solo 1/8 de las ejecuciones y reducir el tiempo de entrenamiento en más del 70%.

English

Group Relative Policy Optimization (GRPO) is a prominent reinforcement learning algorithm for post-training Large Language Models (LLMs). It is commonly believed that GRPO necessitates a large group size to ensure stable training via precise statistical estimation, which incurs substantial computational overhead. In this work, we challenge this assumption by reframing GRPO as a form of contrastive learning, which reveals a fundamental connection to Direct Preference Optimization (DPO). Motivated by DPO's empirical success, we investigate the minimal two-rollout case (2-GRPO), a configuration previously deemed infeasible. We provide a rigorous theoretical analysis to validate 2-GRPO and demonstrate empirically that it achieves performance on par with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time by over 70%.

Se Necesitan Dos: Tu GRPO Es Secretamente DPO

It Takes Two: Your GRPO Is Secretly DPO

Resumen

Support