ChatPaper.aiChatPaper

Il en faut deux : votre GRPO est secrètement un DPO.

It Takes Two: Your GRPO Is Secretly DPO

October 1, 2025
papers.authors: Yihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie
cs.AI

papers.abstract

L'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) est un algorithme d'apprentissage par renforcement de premier plan pour le post-entraînement des modèles de langage de grande taille (Large Language Models, LLMs). Il est communément admis que GRPO nécessite une taille de groupe importante pour garantir un entraînement stable via une estimation statistique précise, ce qui entraîne un coût computationnel substantiel. Dans ce travail, nous remettons en question cette hypothèse en reformulant GRPO comme une forme d'apprentissage contrastif, ce qui révèle un lien fondamental avec l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO). Motivés par le succès empirique de DPO, nous étudions le cas minimal à deux déploiements (2-GRPO), une configuration précédemment jugée irréalisable. Nous fournissons une analyse théorique rigoureuse pour valider 2-GRPO et démontrons empiriquement qu'il atteint des performances comparables à celles de 16-GRPO, tout en utilisant seulement 1/8 des déploiements et en réduisant le temps d'entraînement de plus de 70 %.
English
Group Relative Policy Optimization (GRPO) is a prominent reinforcement learning algorithm for post-training Large Language Models (LLMs). It is commonly believed that GRPO necessitates a large group size to ensure stable training via precise statistical estimation, which incurs substantial computational overhead. In this work, we challenge this assumption by reframing GRPO as a form of contrastive learning, which reveals a fundamental connection to Direct Preference Optimization (DPO). Motivated by DPO's empirical success, we investigate the minimal two-rollout case (2-GRPO), a configuration previously deemed infeasible. We provide a rigorous theoretical analysis to validate 2-GRPO and demonstrate empirically that it achieves performance on par with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time by over 70%.
PDF282October 2, 2025