MixGRPO : Optimisation de l'efficacité des GRPO basés sur les flux grâce à un mélange d'équations différentielles ordinaires et stochastiques
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE
July 29, 2025
papers.authors: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong
cs.AI
papers.abstract
Bien que GRPO améliore considérablement les modèles de correspondance de flux dans l'alignement des préférences humaines pour la génération d'images, des méthodes telles que FlowGRPO présentent encore des inefficacités en raison de la nécessité d'échantillonner et d'optimiser sur toutes les étapes de débruitage spécifiées par le processus de décision markovien (MDP). Dans cet article, nous proposons MixGRPO, un cadre novateur qui exploite la flexibilité des stratégies d'échantillonnage mixtes grâce à l'intégration d'équations différentielles stochastiques (SDE) et d'équations différentielles ordinaires (ODE). Cela rationalise le processus d'optimisation au sein du MDP pour améliorer l'efficacité et renforcer les performances. Plus précisément, MixGRPO introduit un mécanisme de fenêtre glissante, utilisant l'échantillonnage SDE et l'optimisation guidée par GRPO uniquement dans la fenêtre, tout en appliquant l'échantillonnage ODE à l'extérieur. Cette conception confine l'aléatoire de l'échantillonnage aux pas de temps dans la fenêtre, réduisant ainsi la surcharge d'optimisation et permettant des mises à jour de gradient plus ciblées pour accélérer la convergence. De plus, comme les pas de temps au-delà de la fenêtre glissante ne sont pas impliqués dans l'optimisation, des solveurs d'ordre supérieur sont pris en charge pour l'échantillonnage. Nous présentons donc une variante plus rapide, appelée MixGRPO-Flash, qui améliore encore l'efficacité de l'entraînement tout en atteignant des performances comparables. MixGRPO montre des gains substantiels dans plusieurs dimensions de l'alignement des préférences humaines, surpassant DanceGRPO à la fois en efficacité et en performance, avec un temps d'entraînement réduit de près de 50 %. Notamment, MixGRPO-Flash réduit encore le temps d'entraînement de 71 %. Les codes et modèles sont disponibles à l'adresse suivante : https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
English
Although GRPO substantially enhances flow matching models in human preference
alignment of image generation, methods such as FlowGRPO still exhibit
inefficiency due to the necessity of sampling and optimizing over all denoising
steps specified by the Markov Decision Process (MDP). In this paper, we propose
MixGRPO, a novel framework that leverages the flexibility of mixed
sampling strategies through the integration of stochastic differential
equations (SDE) and ordinary differential equations (ODE). This streamlines the
optimization process within the MDP to improve efficiency and boost
performance. Specifically, MixGRPO introduces a sliding window mechanism, using
SDE sampling and GRPO-guided optimization only within the window, while
applying ODE sampling outside. This design confines sampling randomness to the
time-steps within the window, thereby reducing the optimization overhead, and
allowing for more focused gradient updates to accelerate convergence.
Additionally, as time-steps beyond the sliding window are not involved in
optimization, higher-order solvers are supported for sampling. So we present a
faster variant, termed MixGRPO-Flash, which further improves
training efficiency while achieving comparable performance. MixGRPO exhibits
substantial gains across multiple dimensions of human preference alignment,
outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50%
lower training time. Notably, MixGRPO-Flash further reduces training time by
71%. Codes and models are available at
https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.