ChatPaper.aiChatPaper

MixGRPO: Sbloccare l'efficienza di GRPO basato su flussi con ODE-SDE misto

MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

July 29, 2025
Autori: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong
cs.AI

Abstract

Sebbene GRPO migliori sostanzialmente i modelli di flow matching nell'allineamento delle preferenze umane per la generazione di immagini, metodi come FlowGRPO mostrano ancora inefficienze a causa della necessità di campionare e ottimizzare su tutti i passi di denoising specificati dal Processo Decisionale di Markov (MDP). In questo articolo, proponiamo MixGRPO, un nuovo framework che sfrutta la flessibilità delle strategie di campionamento misto attraverso l'integrazione di equazioni differenziali stocastiche (SDE) e equazioni differenziali ordinarie (ODE). Ciò semplifica il processo di ottimizzazione all'interno dell'MDP per migliorare l'efficienza e aumentare le prestazioni. Nello specifico, MixGRPO introduce un meccanismo a finestra scorrevole, utilizzando il campionamento SDE e l'ottimizzazione guidata da GRPO solo all'interno della finestra, mentre applica il campionamento ODE all'esterno. Questo design confina la casualità del campionamento ai passi temporali all'interno della finestra, riducendo così il sovraccarico di ottimizzazione e consentendo aggiornamenti del gradiente più mirati per accelerare la convergenza. Inoltre, poiché i passi temporali oltre la finestra scorrevole non sono coinvolti nell'ottimizzazione, sono supportati risolutori di ordine superiore per il campionamento. Presentiamo quindi una variante più veloce, denominata MixGRPO-Flash, che migliora ulteriormente l'efficienza dell'addestramento mantenendo prestazioni comparabili. MixGRPO mostra guadagni sostanziali in molteplici dimensioni dell'allineamento delle preferenze umane, superando DanceGRPO sia in efficacia che in efficienza, con un tempo di addestramento ridotto di quasi il 50%. In particolare, MixGRPO-Flash riduce ulteriormente il tempo di addestramento del 71%. Codici e modelli sono disponibili su https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
English
Although GRPO substantially enhances flow matching models in human preference alignment of image generation, methods such as FlowGRPO still exhibit inefficiency due to the necessity of sampling and optimizing over all denoising steps specified by the Markov Decision Process (MDP). In this paper, we propose MixGRPO, a novel framework that leverages the flexibility of mixed sampling strategies through the integration of stochastic differential equations (SDE) and ordinary differential equations (ODE). This streamlines the optimization process within the MDP to improve efficiency and boost performance. Specifically, MixGRPO introduces a sliding window mechanism, using SDE sampling and GRPO-guided optimization only within the window, while applying ODE sampling outside. This design confines sampling randomness to the time-steps within the window, thereby reducing the optimization overhead, and allowing for more focused gradient updates to accelerate convergence. Additionally, as time-steps beyond the sliding window are not involved in optimization, higher-order solvers are supported for sampling. So we present a faster variant, termed MixGRPO-Flash, which further improves training efficiency while achieving comparable performance. MixGRPO exhibits substantial gains across multiple dimensions of human preference alignment, outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50% lower training time. Notably, MixGRPO-Flash further reduces training time by 71%. Codes and models are available at https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
PDF102July 31, 2025