MixGRPO: Sbloccare l'efficienza di GRPO basato su flussi con ODE-SDE misto
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE
July 29, 2025
Autori: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong
cs.AI
Abstract
Sebbene GRPO migliori sostanzialmente i modelli di flow matching nell'allineamento delle preferenze umane per la generazione di immagini, metodi come FlowGRPO mostrano ancora inefficienze a causa della necessità di campionare e ottimizzare su tutti i passi di denoising specificati dal Processo Decisionale di Markov (MDP). In questo articolo, proponiamo MixGRPO, un nuovo framework che sfrutta la flessibilità delle strategie di campionamento misto attraverso l'integrazione di equazioni differenziali stocastiche (SDE) e equazioni differenziali ordinarie (ODE). Ciò semplifica il processo di ottimizzazione all'interno dell'MDP per migliorare l'efficienza e aumentare le prestazioni. Nello specifico, MixGRPO introduce un meccanismo a finestra scorrevole, utilizzando il campionamento SDE e l'ottimizzazione guidata da GRPO solo all'interno della finestra, mentre applica il campionamento ODE all'esterno. Questo design confina la casualità del campionamento ai passi temporali all'interno della finestra, riducendo così il sovraccarico di ottimizzazione e consentendo aggiornamenti del gradiente più mirati per accelerare la convergenza. Inoltre, poiché i passi temporali oltre la finestra scorrevole non sono coinvolti nell'ottimizzazione, sono supportati risolutori di ordine superiore per il campionamento. Presentiamo quindi una variante più veloce, denominata MixGRPO-Flash, che migliora ulteriormente l'efficienza dell'addestramento mantenendo prestazioni comparabili. MixGRPO mostra guadagni sostanziali in molteplici dimensioni dell'allineamento delle preferenze umane, superando DanceGRPO sia in efficacia che in efficienza, con un tempo di addestramento ridotto di quasi il 50%. In particolare, MixGRPO-Flash riduce ulteriormente il tempo di addestramento del 71%. Codici e modelli sono disponibili su https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
English
Although GRPO substantially enhances flow matching models in human preference
alignment of image generation, methods such as FlowGRPO still exhibit
inefficiency due to the necessity of sampling and optimizing over all denoising
steps specified by the Markov Decision Process (MDP). In this paper, we propose
MixGRPO, a novel framework that leverages the flexibility of mixed
sampling strategies through the integration of stochastic differential
equations (SDE) and ordinary differential equations (ODE). This streamlines the
optimization process within the MDP to improve efficiency and boost
performance. Specifically, MixGRPO introduces a sliding window mechanism, using
SDE sampling and GRPO-guided optimization only within the window, while
applying ODE sampling outside. This design confines sampling randomness to the
time-steps within the window, thereby reducing the optimization overhead, and
allowing for more focused gradient updates to accelerate convergence.
Additionally, as time-steps beyond the sliding window are not involved in
optimization, higher-order solvers are supported for sampling. So we present a
faster variant, termed MixGRPO-Flash, which further improves
training efficiency while achieving comparable performance. MixGRPO exhibits
substantial gains across multiple dimensions of human preference alignment,
outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50%
lower training time. Notably, MixGRPO-Flash further reduces training time by
71%. Codes and models are available at
https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.