MixGRPO: Desbloqueando la eficiencia de GRPO basado en flujos con ODE-SDE mixto
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE
July 29, 2025
Autores: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong
cs.AI
Resumen
Aunque GRPO mejora sustancialmente los modelos de emparejamiento de flujos en la alineación de preferencias humanas para la generación de imágenes, métodos como FlowGRPO aún presentan ineficiencias debido a la necesidad de muestrear y optimizar sobre todos los pasos de eliminación de ruido especificados por el Proceso de Decisión de Markov (MDP). En este artículo, proponemos MixGRPO, un marco novedoso que aprovecha la flexibilidad de las estrategias de muestreo mixto mediante la integración de ecuaciones diferenciales estocásticas (SDE) y ecuaciones diferenciales ordinarias (ODE). Esto agiliza el proceso de optimización dentro del MDP para mejorar la eficiencia y potenciar el rendimiento. Específicamente, MixGRPO introduce un mecanismo de ventana deslizante, utilizando muestreo SDE y optimización guiada por GRPO solo dentro de la ventana, mientras aplica muestreo ODE fuera de ella. Este diseño confina la aleatoriedad del muestreo a los pasos de tiempo dentro de la ventana, reduciendo así la sobrecarga de optimización y permitiendo actualizaciones de gradiente más enfocadas para acelerar la convergencia. Además, dado que los pasos de tiempo fuera de la ventana deslizante no participan en la optimización, se admiten solucionadores de orden superior para el muestreo. Por ello, presentamos una variante más rápida, denominada MixGRPO-Flash, que mejora aún más la eficiencia del entrenamiento mientras logra un rendimiento comparable. MixGRPO muestra mejoras sustanciales en múltiples dimensiones de la alineación de preferencias humanas, superando a DanceGRPO tanto en efectividad como en eficiencia, con un tiempo de entrenamiento casi un 50% menor. Notablemente, MixGRPO-Flash reduce aún más el tiempo de entrenamiento en un 71%. Los códigos y modelos están disponibles en https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
English
Although GRPO substantially enhances flow matching models in human preference
alignment of image generation, methods such as FlowGRPO still exhibit
inefficiency due to the necessity of sampling and optimizing over all denoising
steps specified by the Markov Decision Process (MDP). In this paper, we propose
MixGRPO, a novel framework that leverages the flexibility of mixed
sampling strategies through the integration of stochastic differential
equations (SDE) and ordinary differential equations (ODE). This streamlines the
optimization process within the MDP to improve efficiency and boost
performance. Specifically, MixGRPO introduces a sliding window mechanism, using
SDE sampling and GRPO-guided optimization only within the window, while
applying ODE sampling outside. This design confines sampling randomness to the
time-steps within the window, thereby reducing the optimization overhead, and
allowing for more focused gradient updates to accelerate convergence.
Additionally, as time-steps beyond the sliding window are not involved in
optimization, higher-order solvers are supported for sampling. So we present a
faster variant, termed MixGRPO-Flash, which further improves
training efficiency while achieving comparable performance. MixGRPO exhibits
substantial gains across multiple dimensions of human preference alignment,
outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50%
lower training time. Notably, MixGRPO-Flash further reduces training time by
71%. Codes and models are available at
https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.