Ci Vogliono Due: Il Tuo GRPO è Segretamente DPO

Abstract

Group Relative Policy Optimization (GRPO) è un algoritmo di apprendimento per rinforzo di rilievo per il post-addestramento di Large Language Models (LLMs). È comunemente ritenuto che GRPO richieda una dimensione di gruppo ampia per garantire un addestramento stabile attraverso una stima statistica precisa, il che comporta un notevole sovraccarico computazionale. In questo lavoro, mettiamo in discussione questa ipotesi riformulando GRPO come una forma di apprendimento contrastivo, rivelando una connessione fondamentale con Direct Preference Optimization (DPO). Motivati dal successo empirico di DPO, investigiamo il caso minimo di due rollout (2-GRPO), una configurazione precedentemente considerata non fattibile. Forniamo un'analisi teorica rigorosa per validare 2-GRPO e dimostriamo empiricamente che raggiunge prestazioni pari a 16-GRPO, nonostante utilizzi solo 1/8 dei rollout e riduca il tempo di addestramento di oltre il 70%.

English

Group Relative Policy Optimization (GRPO) is a prominent reinforcement learning algorithm for post-training Large Language Models (LLMs). It is commonly believed that GRPO necessitates a large group size to ensure stable training via precise statistical estimation, which incurs substantial computational overhead. In this work, we challenge this assumption by reframing GRPO as a form of contrastive learning, which reveals a fundamental connection to Direct Preference Optimization (DPO). Motivated by DPO's empirical success, we investigate the minimal two-rollout case (2-GRPO), a configuration previously deemed infeasible. We provide a rigorous theoretical analysis to validate 2-GRPO and demonstrate empirically that it achieves performance on par with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time by over 70%.

Ci Vogliono Due: Il Tuo GRPO è Segretamente DPO

It Takes Two: Your GRPO Is Secretly DPO

Abstract

Support