Het Kost Twee: Jouw GRPO Is Stiekem DPO

Samenvatting

Group Relative Policy Optimization (GRPO) is een prominent reinforcement learning-algoritme voor het na-trainen van Large Language Models (LLM's). Het is algemeen aangenomen dat GRPO een grote groepsgrootte vereist om stabiele training te garanderen via nauwkeurige statistische schatting, wat aanzienlijke rekenkosten met zich meebrengt. In dit werk dagen we deze aanname uit door GRPO te herformuleren als een vorm van contrastief leren, wat een fundamentele verbinding met Direct Preference Optimization (DPO) onthult. Gemotiveerd door het empirische succes van DPO, onderzoeken we het minimale geval van twee rollouts (2-GRPO), een configuratie die voorheen als onhaalbaar werd beschouwd. We bieden een rigoureuze theoretische analyse om 2-GRPO te valideren en tonen empirisch aan dat het prestaties bereikt die vergelijkbaar zijn met 16-GRPO, ondanks het gebruik van slechts 1/8 van de rollouts en een vermindering van de trainingsduur met meer dan 70%.

English

Group Relative Policy Optimization (GRPO) is a prominent reinforcement learning algorithm for post-training Large Language Models (LLMs). It is commonly believed that GRPO necessitates a large group size to ensure stable training via precise statistical estimation, which incurs substantial computational overhead. In this work, we challenge this assumption by reframing GRPO as a form of contrastive learning, which reveals a fundamental connection to Direct Preference Optimization (DPO). Motivated by DPO's empirical success, we investigate the minimal two-rollout case (2-GRPO), a configuration previously deemed infeasible. We provide a rigorous theoretical analysis to validate 2-GRPO and demonstrate empirically that it achieves performance on par with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time by over 70%.

Het Kost Twee: Jouw GRPO Is Stiekem DPO

It Takes Two: Your GRPO Is Secretly DPO

Samenvatting

Support