ChatPaper.aiChatPaper

二人で成し遂げる:あなたのGRPOは密かにDPOである

It Takes Two: Your GRPO Is Secretly DPO

October 1, 2025
著者: Yihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie
cs.AI

要旨

グループ相対政策最適化(Group Relative Policy Optimization, GRPO)は、大規模言語モデル(LLMs)のポストトレーニングにおける主要な強化学習アルゴリズムである。一般的に、GRPOは安定したトレーニングを確保するために正確な統計的推定を必要とし、そのために大規模なグループサイズが不可欠であると考えられており、これが大幅な計算コストを引き起こしている。本研究では、この前提に挑戦し、GRPOをコントラスティブ学習の一形態として再解釈することで、Direct Preference Optimization(DPO)との根本的な関連性を明らかにする。DPOの実証的な成功に動機づけられ、これまで実行不可能とされていた最小の2ロールアウト構成(2-GRPO)を調査する。2-GRPOを検証するための厳密な理論分析を提供し、ロールアウト数を1/8に削減し、トレーニング時間を70%以上短縮しながらも、16-GRPOと同等の性能を達成することを実証的に示す。
English
Group Relative Policy Optimization (GRPO) is a prominent reinforcement learning algorithm for post-training Large Language Models (LLMs). It is commonly believed that GRPO necessitates a large group size to ensure stable training via precise statistical estimation, which incurs substantial computational overhead. In this work, we challenge this assumption by reframing GRPO as a form of contrastive learning, which reveals a fundamental connection to Direct Preference Optimization (DPO). Motivated by DPO's empirical success, we investigate the minimal two-rollout case (2-GRPO), a configuration previously deemed infeasible. We provide a rigorous theoretical analysis to validate 2-GRPO and demonstrate empirically that it achieves performance on par with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time by over 70%.
PDF282October 2, 2025