São Necessários Dois: Seu GRPO é Secretamente um DPO

Resumo

O Group Relative Policy Optimization (GRPO) é um algoritmo proeminente de aprendizado por reforço para o pós-treinamento de Modelos de Linguagem de Grande Escala (LLMs). É amplamente aceito que o GRPO requer um tamanho de grupo grande para garantir um treinamento estável por meio de estimativas estatísticas precisas, o que acarreta um custo computacional significativo. Neste trabalho, desafiamos essa suposição ao reformular o GRPO como uma forma de aprendizado contrastivo, revelando uma conexão fundamental com o Direct Preference Optimization (DPO). Motivados pelo sucesso empírico do DPO, investigamos o caso mínimo de dois rollouts (2-GRPO), uma configuração anteriormente considerada inviável. Apresentamos uma análise teórica rigorosa para validar o 2-GRPO e demonstramos empiricamente que ele alcança desempenho equivalente ao 16-GRPO, apesar de utilizar apenas 1/8 dos rollouts e reduzir o tempo de treinamento em mais de 70%.

English

Group Relative Policy Optimization (GRPO) is a prominent reinforcement learning algorithm for post-training Large Language Models (LLMs). It is commonly believed that GRPO necessitates a large group size to ensure stable training via precise statistical estimation, which incurs substantial computational overhead. In this work, we challenge this assumption by reframing GRPO as a form of contrastive learning, which reveals a fundamental connection to Direct Preference Optimization (DPO). Motivated by DPO's empirical success, we investigate the minimal two-rollout case (2-GRPO), a configuration previously deemed infeasible. We provide a rigorous theoretical analysis to validate 2-GRPO and demonstrate empirically that it achieves performance on par with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time by over 70%.

São Necessários Dois: Seu GRPO é Secretamente um DPO

It Takes Two: Your GRPO Is Secretly DPO

Resumo

Support