Se Necesitan Dos: Tu GRPO Es Secretamente DPO
It Takes Two: Your GRPO Is Secretly DPO
October 1, 2025
Autores: Yihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie
cs.AI
Resumen
La Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés) es un algoritmo destacado de aprendizaje por refuerzo para el ajuste posterior de Modelos de Lenguaje a Gran Escala (LLMs). Generalmente se cree que GRPO requiere un tamaño de grupo grande para garantizar un entrenamiento estable mediante una estimación estadística precisa, lo que conlleva un costo computacional significativo. En este trabajo, cuestionamos esta suposición al reformular GRPO como una forma de aprendizaje contrastivo, lo que revela una conexión fundamental con la Optimización Directa de Preferencias (DPO). Motivados por el éxito empírico de DPO, investigamos el caso mínimo de dos ejecuciones (2-GRPO), una configuración previamente considerada inviable. Proporcionamos un análisis teórico riguroso para validar 2-GRPO y demostramos empíricamente que alcanza un rendimiento comparable al de 16-GRPO, a pesar de utilizar solo 1/8 de las ejecuciones y reducir el tiempo de entrenamiento en más del 70%.
English
Group Relative Policy Optimization (GRPO) is a prominent reinforcement
learning algorithm for post-training Large Language Models (LLMs). It is
commonly believed that GRPO necessitates a large group size to ensure stable
training via precise statistical estimation, which incurs substantial
computational overhead. In this work, we challenge this assumption by reframing
GRPO as a form of contrastive learning, which reveals a fundamental connection
to Direct Preference Optimization (DPO). Motivated by DPO's empirical success,
we investigate the minimal two-rollout case (2-GRPO), a configuration
previously deemed infeasible. We provide a rigorous theoretical analysis to
validate 2-GRPO and demonstrate empirically that it achieves performance on par
with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time
by over 70%.