ChatPaper.aiChatPaper

Два в одном: ваш GRPO — это на самом деле DPO

It Takes Two: Your GRPO Is Secretly DPO

October 1, 2025
Авторы: Yihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie
cs.AI

Аннотация

Group Relative Policy Optimization (GRPO) — это известный алгоритм обучения с подкреплением для посттренинга больших языковых моделей (LLM). Распространено мнение, что GRPO требует большого размера группы для обеспечения стабильного обучения за счет точной статистической оценки, что влечет значительные вычислительные затраты. В данной работе мы оспариваем это предположение, переосмысливая GRPO как форму контрастивного обучения, что выявляет фундаментальную связь с Direct Preference Optimization (DPO). Вдохновленные эмпирическим успехом DPO, мы исследуем минимальный случай с двумя прогонами (2-GRPO), конфигурацию, ранее считавшуюся неосуществимой. Мы предоставляем строгий теоретический анализ для обоснования 2-GRPO и эмпирически демонстрируем, что он достигает производительности на уровне 16-GRPO, несмотря на использование лишь 1/8 прогонов и сокращение времени обучения более чем на 70%.
English
Group Relative Policy Optimization (GRPO) is a prominent reinforcement learning algorithm for post-training Large Language Models (LLMs). It is commonly believed that GRPO necessitates a large group size to ensure stable training via precise statistical estimation, which incurs substantial computational overhead. In this work, we challenge this assumption by reframing GRPO as a form of contrastive learning, which reveals a fundamental connection to Direct Preference Optimization (DPO). Motivated by DPO's empirical success, we investigate the minimal two-rollout case (2-GRPO), a configuration previously deemed infeasible. We provide a rigorous theoretical analysis to validate 2-GRPO and demonstrate empirically that it achieves performance on par with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time by over 70%.
PDF282October 2, 2025