MixGRPO: Повышение эффективности потокового GRPO за счет смешанного подхода ODE-SDE
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE
July 29, 2025
Авторы: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong
cs.AI
Аннотация
Хотя GRPO значительно улучшает модели сопоставления потоков для согласования с человеческими предпочтениями в генерации изображений, такие методы, как FlowGRPO, всё ещё демонстрируют неэффективность из-за необходимости выборки и оптимизации на всех шагах удаления шума, заданных марковским процессом принятия решений (MDP). В данной статье мы предлагаем MixGRPO — новый фреймворк, который использует гибкость смешанных стратегий выборки за счёт интеграции стохастических дифференциальных уравнений (SDE) и обыкновенных дифференциальных уравнений (ODE). Это упрощает процесс оптимизации в рамках MDP, повышая эффективность и производительность. В частности, MixGRPO вводит механизм скользящего окна, применяя выборку SDE и оптимизацию под руководством GRPO только внутри окна, в то время как за его пределами используется выборка ODE. Такой подход ограничивает случайность выборки временными шагами внутри окна, тем самым снижая накладные расходы на оптимизацию и позволяя сосредоточиться на более целенаправленных обновлениях градиента для ускорения сходимости. Кроме того, поскольку временные шаги за пределами скользящего окна не участвуют в оптимизации, поддерживаются решатели более высокого порядка для выборки. Поэтому мы представляем более быструю версию, названную MixGRPO-Flash, которая дополнительно повышает эффективность обучения при сохранении сопоставимой производительности. MixGRPO демонстрирует значительные улучшения в различных аспектах согласования с человеческими предпочтениями, превосходя DanceGRPO как по эффективности, так и по производительности, с почти 50%-ным сокращением времени обучения. Примечательно, что MixGRPO-Flash дополнительно сокращает время обучения на 71%. Коды и модели доступны по адресу https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
English
Although GRPO substantially enhances flow matching models in human preference
alignment of image generation, methods such as FlowGRPO still exhibit
inefficiency due to the necessity of sampling and optimizing over all denoising
steps specified by the Markov Decision Process (MDP). In this paper, we propose
MixGRPO, a novel framework that leverages the flexibility of mixed
sampling strategies through the integration of stochastic differential
equations (SDE) and ordinary differential equations (ODE). This streamlines the
optimization process within the MDP to improve efficiency and boost
performance. Specifically, MixGRPO introduces a sliding window mechanism, using
SDE sampling and GRPO-guided optimization only within the window, while
applying ODE sampling outside. This design confines sampling randomness to the
time-steps within the window, thereby reducing the optimization overhead, and
allowing for more focused gradient updates to accelerate convergence.
Additionally, as time-steps beyond the sliding window are not involved in
optimization, higher-order solvers are supported for sampling. So we present a
faster variant, termed MixGRPO-Flash, which further improves
training efficiency while achieving comparable performance. MixGRPO exhibits
substantial gains across multiple dimensions of human preference alignment,
outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50%
lower training time. Notably, MixGRPO-Flash further reduces training time by
71%. Codes and models are available at
https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.