Ci Vogliono Due: Il Tuo GRPO è Segretamente DPO
It Takes Two: Your GRPO Is Secretly DPO
October 1, 2025
Autori: Yihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie
cs.AI
Abstract
Group Relative Policy Optimization (GRPO) è un algoritmo di apprendimento per rinforzo di rilievo per il post-addestramento di Large Language Models (LLMs). È comunemente ritenuto che GRPO richieda una dimensione di gruppo ampia per garantire un addestramento stabile attraverso una stima statistica precisa, il che comporta un notevole sovraccarico computazionale. In questo lavoro, mettiamo in discussione questa ipotesi riformulando GRPO come una forma di apprendimento contrastivo, rivelando una connessione fondamentale con Direct Preference Optimization (DPO). Motivati dal successo empirico di DPO, investigiamo il caso minimo di due rollout (2-GRPO), una configurazione precedentemente considerata non fattibile. Forniamo un'analisi teorica rigorosa per validare 2-GRPO e dimostriamo empiricamente che raggiunge prestazioni pari a 16-GRPO, nonostante utilizzi solo 1/8 dei rollout e riduca il tempo di addestramento di oltre il 70%.
English
Group Relative Policy Optimization (GRPO) is a prominent reinforcement
learning algorithm for post-training Large Language Models (LLMs). It is
commonly believed that GRPO necessitates a large group size to ensure stable
training via precise statistical estimation, which incurs substantial
computational overhead. In this work, we challenge this assumption by reframing
GRPO as a form of contrastive learning, which reveals a fundamental connection
to Direct Preference Optimization (DPO). Motivated by DPO's empirical success,
we investigate the minimal two-rollout case (2-GRPO), a configuration
previously deemed infeasible. We provide a rigorous theoretical analysis to
validate 2-GRPO and demonstrate empirically that it achieves performance on par
with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time
by over 70%.