Het Kost Twee: Jouw GRPO Is Stiekem DPO
It Takes Two: Your GRPO Is Secretly DPO
October 1, 2025
Auteurs: Yihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie
cs.AI
Samenvatting
Group Relative Policy Optimization (GRPO) is een prominent reinforcement learning-algoritme voor het na-trainen van Large Language Models (LLM's). Het is algemeen aangenomen dat GRPO een grote groepsgrootte vereist om stabiele training te garanderen via nauwkeurige statistische schatting, wat aanzienlijke rekenkosten met zich meebrengt. In dit werk dagen we deze aanname uit door GRPO te herformuleren als een vorm van contrastief leren, wat een fundamentele verbinding met Direct Preference Optimization (DPO) onthult. Gemotiveerd door het empirische succes van DPO, onderzoeken we het minimale geval van twee rollouts (2-GRPO), een configuratie die voorheen als onhaalbaar werd beschouwd. We bieden een rigoureuze theoretische analyse om 2-GRPO te valideren en tonen empirisch aan dat het prestaties bereikt die vergelijkbaar zijn met 16-GRPO, ondanks het gebruik van slechts 1/8 van de rollouts en een vermindering van de trainingsduur met meer dan 70%.
English
Group Relative Policy Optimization (GRPO) is a prominent reinforcement
learning algorithm for post-training Large Language Models (LLMs). It is
commonly believed that GRPO necessitates a large group size to ensure stable
training via precise statistical estimation, which incurs substantial
computational overhead. In this work, we challenge this assumption by reframing
GRPO as a form of contrastive learning, which reveals a fundamental connection
to Direct Preference Optimization (DPO). Motivated by DPO's empirical success,
we investigate the minimal two-rollout case (2-GRPO), a configuration
previously deemed infeasible. We provide a rigorous theoretical analysis to
validate 2-GRPO and demonstrate empirically that it achieves performance on par
with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time
by over 70%.