ChatPaper.aiChatPaper

Es braucht zwei: Ihr GRPO ist heimlich ein DPO.

It Takes Two: Your GRPO Is Secretly DPO

October 1, 2025
papers.authors: Yihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie
cs.AI

papers.abstract

Group Relative Policy Optimization (GRPO) ist ein bedeutender Reinforcement-Learning-Algorithmus für das Post-Training von Large Language Models (LLMs). Es wird allgemein angenommen, dass GRPO eine große Gruppengröße erfordert, um ein stabiles Training durch präzise statistische Schätzung zu gewährleisten, was erheblichen Rechenaufwand verursacht. In dieser Arbeit stellen wir diese Annahme in Frage, indem wir GRPO als eine Form des kontrastiven Lernens neu interpretieren, was eine grundlegende Verbindung zu Direct Preference Optimization (DPO) aufzeigt. Motiviert durch den empirischen Erfolg von DPO untersuchen wir den minimalen Fall mit zwei Rollouts (2-GRPO), eine Konfiguration, die bisher als nicht durchführbar galt. Wir liefern eine rigorose theoretische Analyse, um 2-GRPO zu validieren, und zeigen empirisch, dass es eine Leistung erzielt, die mit 16-GRPO vergleichbar ist, obwohl nur 1/8 der Rollouts verwendet und die Trainingszeit um über 70 % reduziert wird.
English
Group Relative Policy Optimization (GRPO) is a prominent reinforcement learning algorithm for post-training Large Language Models (LLMs). It is commonly believed that GRPO necessitates a large group size to ensure stable training via precise statistical estimation, which incurs substantial computational overhead. In this work, we challenge this assumption by reframing GRPO as a form of contrastive learning, which reveals a fundamental connection to Direct Preference Optimization (DPO). Motivated by DPO's empirical success, we investigate the minimal two-rollout case (2-GRPO), a configuration previously deemed infeasible. We provide a rigorous theoretical analysis to validate 2-GRPO and demonstrate empirically that it achieves performance on par with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time by over 70%.
PDF282October 2, 2025