ChatPaper.aiChatPaper

MixGRPO: Desbloqueando la eficiencia de GRPO basado en flujos con ODE-SDE mixto

MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

July 29, 2025
Autores: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong
cs.AI

Resumen

Aunque GRPO mejora sustancialmente los modelos de emparejamiento de flujos en la alineación de preferencias humanas para la generación de imágenes, métodos como FlowGRPO aún presentan ineficiencias debido a la necesidad de muestrear y optimizar sobre todos los pasos de eliminación de ruido especificados por el Proceso de Decisión de Markov (MDP). En este artículo, proponemos MixGRPO, un marco novedoso que aprovecha la flexibilidad de las estrategias de muestreo mixto mediante la integración de ecuaciones diferenciales estocásticas (SDE) y ecuaciones diferenciales ordinarias (ODE). Esto agiliza el proceso de optimización dentro del MDP para mejorar la eficiencia y potenciar el rendimiento. Específicamente, MixGRPO introduce un mecanismo de ventana deslizante, utilizando muestreo SDE y optimización guiada por GRPO solo dentro de la ventana, mientras aplica muestreo ODE fuera de ella. Este diseño confina la aleatoriedad del muestreo a los pasos de tiempo dentro de la ventana, reduciendo así la sobrecarga de optimización y permitiendo actualizaciones de gradiente más enfocadas para acelerar la convergencia. Además, dado que los pasos de tiempo fuera de la ventana deslizante no participan en la optimización, se admiten solucionadores de orden superior para el muestreo. Por ello, presentamos una variante más rápida, denominada MixGRPO-Flash, que mejora aún más la eficiencia del entrenamiento mientras logra un rendimiento comparable. MixGRPO muestra mejoras sustanciales en múltiples dimensiones de la alineación de preferencias humanas, superando a DanceGRPO tanto en efectividad como en eficiencia, con un tiempo de entrenamiento casi un 50% menor. Notablemente, MixGRPO-Flash reduce aún más el tiempo de entrenamiento en un 71%. Los códigos y modelos están disponibles en https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
English
Although GRPO substantially enhances flow matching models in human preference alignment of image generation, methods such as FlowGRPO still exhibit inefficiency due to the necessity of sampling and optimizing over all denoising steps specified by the Markov Decision Process (MDP). In this paper, we propose MixGRPO, a novel framework that leverages the flexibility of mixed sampling strategies through the integration of stochastic differential equations (SDE) and ordinary differential equations (ODE). This streamlines the optimization process within the MDP to improve efficiency and boost performance. Specifically, MixGRPO introduces a sliding window mechanism, using SDE sampling and GRPO-guided optimization only within the window, while applying ODE sampling outside. This design confines sampling randomness to the time-steps within the window, thereby reducing the optimization overhead, and allowing for more focused gradient updates to accelerate convergence. Additionally, as time-steps beyond the sliding window are not involved in optimization, higher-order solvers are supported for sampling. So we present a faster variant, termed MixGRPO-Flash, which further improves training efficiency while achieving comparable performance. MixGRPO exhibits substantial gains across multiple dimensions of human preference alignment, outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50% lower training time. Notably, MixGRPO-Flash further reduces training time by 71%. Codes and models are available at https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
PDF92July 31, 2025