ChatPaper.aiChatPaper

MixGRPO: Effizienzsteigerung von Flow-basiertem GRPO durch gemischte ODE-SDE

MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

July 29, 2025
papers.authors: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong
cs.AI

papers.abstract

Obwohl GRPO die Flow-Matching-Modelle bei der Ausrichtung der Bildgenerierung an menschlichen Präferenzen erheblich verbessert, weisen Methoden wie FlowGRPO aufgrund der Notwendigkeit, über alle in dem Markov-Entscheidungsprozess (MDP) spezifizierten Denoising-Schritte zu sampeln und zu optimieren, immer noch Ineffizienzen auf. In diesem Artikel schlagen wir MixGRPO vor, ein neuartiges Framework, das die Flexibilität gemischter Sampling-Strategien durch die Integration stochastischer Differentialgleichungen (SDE) und gewöhnlicher Differentialgleichungen (ODE) nutzt. Dies optimiert den Optimierungsprozess innerhalb des MDP, um die Effizienz zu steigern und die Leistung zu verbessern. Insbesondere führt MixGRPO einen Schiebefenster-Mechanismus ein, der SDE-Sampling und GRPO-gesteuerte Optimierung nur innerhalb des Fensters verwendet, während außerhalb ODE-Sampling angewendet wird. Dieser Ansatz beschränkt die Zufälligkeit des Samplings auf die Zeitschritte innerhalb des Fensters, reduziert dadurch den Optimierungsaufwand und ermöglicht gezieltere Gradientenaktualisierungen, um die Konvergenz zu beschleunigen. Da Zeitschritte außerhalb des Schiebefensters nicht in die Optimierung einbezogen werden, werden zudem höherwertige Solver für das Sampling unterstützt. Daher präsentieren wir eine schnellere Variante, genannt MixGRPO-Flash, die die Trainings effizienz weiter verbessert, während sie eine vergleichbare Leistung erzielt. MixGRPO zeigt erhebliche Verbesserungen in mehreren Dimensionen der Ausrichtung an menschlichen Präferenzen und übertrifft DanceGRPO sowohl in der Effektivität als auch in der Effizienz, mit einer um fast 50 % geringeren Trainingszeit. Bemerkenswerterweise reduziert MixGRPO-Flash die Trainingszeit um weitere 71 %. Codes und Modelle sind verfügbar unter https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
English
Although GRPO substantially enhances flow matching models in human preference alignment of image generation, methods such as FlowGRPO still exhibit inefficiency due to the necessity of sampling and optimizing over all denoising steps specified by the Markov Decision Process (MDP). In this paper, we propose MixGRPO, a novel framework that leverages the flexibility of mixed sampling strategies through the integration of stochastic differential equations (SDE) and ordinary differential equations (ODE). This streamlines the optimization process within the MDP to improve efficiency and boost performance. Specifically, MixGRPO introduces a sliding window mechanism, using SDE sampling and GRPO-guided optimization only within the window, while applying ODE sampling outside. This design confines sampling randomness to the time-steps within the window, thereby reducing the optimization overhead, and allowing for more focused gradient updates to accelerate convergence. Additionally, as time-steps beyond the sliding window are not involved in optimization, higher-order solvers are supported for sampling. So we present a faster variant, termed MixGRPO-Flash, which further improves training efficiency while achieving comparable performance. MixGRPO exhibits substantial gains across multiple dimensions of human preference alignment, outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50% lower training time. Notably, MixGRPO-Flash further reduces training time by 71%. Codes and models are available at https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
PDF92July 31, 2025