MixGRPO: Desbloqueando a Eficiência do GRPO Baseado em Fluxo com ODE-SDE Misto
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE
July 29, 2025
Autores: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong
cs.AI
Resumo
Embora o GRPO aprimore substancialmente os modelos de correspondência de fluxo no alinhamento de preferências humanas na geração de imagens, métodos como o FlowGRPO ainda apresentam ineficiência devido à necessidade de amostragem e otimização em todas as etapas de remoção de ruído especificadas pelo Processo de Decisão de Markov (MDP). Neste artigo, propomos o MixGRPO, uma nova estrutura que aproveita a flexibilidade de estratégias de amostragem mista por meio da integração de equações diferenciais estocásticas (SDE) e equações diferenciais ordinárias (ODE). Isso simplifica o processo de otimização dentro do MDP para melhorar a eficiência e impulsionar o desempenho. Especificamente, o MixGRPO introduz um mecanismo de janela deslizante, utilizando amostragem SDE e otimização guiada por GRPO apenas dentro da janela, enquanto aplica amostragem ODE fora dela. Esse design confina a aleatoriedade da amostragem às etapas de tempo dentro da janela, reduzindo assim a sobrecarga de otimização e permitindo atualizações de gradiente mais focadas para acelerar a convergência. Além disso, como as etapas de tempo além da janela deslizante não estão envolvidas na otimização, solucionadores de ordem superior são suportados para amostragem. Assim, apresentamos uma variante mais rápida, denominada MixGRPO-Flash, que melhora ainda mais a eficiência do treinamento enquanto alcança desempenho comparável. O MixGRPO exibe ganhos substanciais em múltiplas dimensões do alinhamento de preferências humanas, superando o DanceGRPO tanto em eficácia quanto em eficiência, com um tempo de treinamento quase 50% menor. Notavelmente, o MixGRPO-Flash reduz ainda mais o tempo de treinamento em 71%. Códigos e modelos estão disponíveis em https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
English
Although GRPO substantially enhances flow matching models in human preference
alignment of image generation, methods such as FlowGRPO still exhibit
inefficiency due to the necessity of sampling and optimizing over all denoising
steps specified by the Markov Decision Process (MDP). In this paper, we propose
MixGRPO, a novel framework that leverages the flexibility of mixed
sampling strategies through the integration of stochastic differential
equations (SDE) and ordinary differential equations (ODE). This streamlines the
optimization process within the MDP to improve efficiency and boost
performance. Specifically, MixGRPO introduces a sliding window mechanism, using
SDE sampling and GRPO-guided optimization only within the window, while
applying ODE sampling outside. This design confines sampling randomness to the
time-steps within the window, thereby reducing the optimization overhead, and
allowing for more focused gradient updates to accelerate convergence.
Additionally, as time-steps beyond the sliding window are not involved in
optimization, higher-order solvers are supported for sampling. So we present a
faster variant, termed MixGRPO-Flash, which further improves
training efficiency while achieving comparable performance. MixGRPO exhibits
substantial gains across multiple dimensions of human preference alignment,
outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50%
lower training time. Notably, MixGRPO-Flash further reduces training time by
71%. Codes and models are available at
https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.