MixGRPO: 混合ODE-SDEによるフローベースGRPOの効率化
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE
July 29, 2025
著者: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong
cs.AI
要旨
GRPOは画像生成における人間の嗜好アライメントにおいてフローマッチングモデルを大幅に強化するものの、FlowGRPOなどの手法は、マルコフ決定過程(MDP)で指定されたすべてのノイズ除去ステップをサンプリングし最適化する必要性から、依然として非効率性を示しています。本論文では、確率微分方程式(SDE)と常微分方程式(ODE)の統合を通じて、混合サンプリング戦略の柔軟性を活用する新しいフレームワークであるMixGRPOを提案します。これにより、MDP内の最適化プロセスを合理化し、効率とパフォーマンスを向上させます。具体的には、MixGRPOはスライディングウィンドウメカニズムを導入し、ウィンドウ内でのみSDEサンプリングとGRPOガイド付き最適化を使用し、ウィンドウ外ではODEサンプリングを適用します。この設計により、サンプリングのランダム性をウィンドウ内のタイムステップに限定し、最適化のオーバーヘッドを削減し、より焦点を絞った勾配更新を可能にして収束を加速します。さらに、スライディングウィンドウを超えるタイムステップは最適化に関与しないため、高次のソルバーがサンプリングにサポートされます。そこで、トレーニング効率をさらに向上させながら同等のパフォーマンスを達成する、MixGRPO-Flashと呼ばれる高速バリアントを提示します。MixGRPOは、人間の嗜好アライメントの複数の次元で大幅な向上を示し、DanceGRPOを効果と効率の両面で上回り、トレーニング時間をほぼ50%削減します。特に、MixGRPO-Flashはトレーニング時間をさらに71%削減します。コードとモデルはhttps://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}で公開されています。
English
Although GRPO substantially enhances flow matching models in human preference
alignment of image generation, methods such as FlowGRPO still exhibit
inefficiency due to the necessity of sampling and optimizing over all denoising
steps specified by the Markov Decision Process (MDP). In this paper, we propose
MixGRPO, a novel framework that leverages the flexibility of mixed
sampling strategies through the integration of stochastic differential
equations (SDE) and ordinary differential equations (ODE). This streamlines the
optimization process within the MDP to improve efficiency and boost
performance. Specifically, MixGRPO introduces a sliding window mechanism, using
SDE sampling and GRPO-guided optimization only within the window, while
applying ODE sampling outside. This design confines sampling randomness to the
time-steps within the window, thereby reducing the optimization overhead, and
allowing for more focused gradient updates to accelerate convergence.
Additionally, as time-steps beyond the sliding window are not involved in
optimization, higher-order solvers are supported for sampling. So we present a
faster variant, termed MixGRPO-Flash, which further improves
training efficiency while achieving comparable performance. MixGRPO exhibits
substantial gains across multiple dimensions of human preference alignment,
outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50%
lower training time. Notably, MixGRPO-Flash further reduces training time by
71%. Codes and models are available at
https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.