MixGRPO: Desbloqueando a Eficiência do GRPO Baseado em Fluxo com ODE-SDE Misto

Resumo

Embora o GRPO aprimore substancialmente os modelos de correspondência de fluxo no alinhamento de preferências humanas na geração de imagens, métodos como o FlowGRPO ainda apresentam ineficiência devido à necessidade de amostragem e otimização em todas as etapas de remoção de ruído especificadas pelo Processo de Decisão de Markov (MDP). Neste artigo, propomos o MixGRPO, uma nova estrutura que aproveita a flexibilidade de estratégias de amostragem mista por meio da integração de equações diferenciais estocásticas (SDE) e equações diferenciais ordinárias (ODE). Isso simplifica o processo de otimização dentro do MDP para melhorar a eficiência e impulsionar o desempenho. Especificamente, o MixGRPO introduz um mecanismo de janela deslizante, utilizando amostragem SDE e otimização guiada por GRPO apenas dentro da janela, enquanto aplica amostragem ODE fora dela. Esse design confina a aleatoriedade da amostragem às etapas de tempo dentro da janela, reduzindo assim a sobrecarga de otimização e permitindo atualizações de gradiente mais focadas para acelerar a convergência. Além disso, como as etapas de tempo além da janela deslizante não estão envolvidas na otimização, solucionadores de ordem superior são suportados para amostragem. Assim, apresentamos uma variante mais rápida, denominada MixGRPO-Flash, que melhora ainda mais a eficiência do treinamento enquanto alcança desempenho comparável. O MixGRPO exibe ganhos substanciais em múltiplas dimensões do alinhamento de preferências humanas, superando o DanceGRPO tanto em eficácia quanto em eficiência, com um tempo de treinamento quase 50% menor. Notavelmente, o MixGRPO-Flash reduz ainda mais o tempo de treinamento em 71%. Códigos e modelos estão disponíveis em https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.

English

Although GRPO substantially enhances flow matching models in human preference alignment of image generation, methods such as FlowGRPO still exhibit inefficiency due to the necessity of sampling and optimizing over all denoising steps specified by the Markov Decision Process (MDP). In this paper, we propose MixGRPO, a novel framework that leverages the flexibility of mixed sampling strategies through the integration of stochastic differential equations (SDE) and ordinary differential equations (ODE). This streamlines the optimization process within the MDP to improve efficiency and boost performance. Specifically, MixGRPO introduces a sliding window mechanism, using SDE sampling and GRPO-guided optimization only within the window, while applying ODE sampling outside. This design confines sampling randomness to the time-steps within the window, thereby reducing the optimization overhead, and allowing for more focused gradient updates to accelerate convergence. Additionally, as time-steps beyond the sliding window are not involved in optimization, higher-order solvers are supported for sampling. So we present a faster variant, termed MixGRPO-Flash, which further improves training efficiency while achieving comparable performance. MixGRPO exhibits substantial gains across multiple dimensions of human preference alignment, outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50% lower training time. Notably, MixGRPO-Flash further reduces training time by 71%. Codes and models are available at https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.

MixGRPO: Desbloqueando a Eficiência do GRPO Baseado em Fluxo com ODE-SDE Misto

MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

Resumo

Support