ChatPaper.aiChatPaper

MixGRPO: 혼합 ODE-SDE를 통한 흐름 기반 GRPO 효율성 개방

MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

July 29, 2025
저자: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong
cs.AI

초록

GRPO는 이미지 생성에서 인간 선호도 정렬을 위한 플로우 매칭 모델을 상당히 향상시키지만, FlowGRPO와 같은 방법들은 여전히 마르코프 결정 과정(MDP)에 의해 지정된 모든 디노이징 단계에 대한 샘플링과 최적화가 필요하기 때문에 비효율성을 보인다. 본 논문에서는 확률적 미분 방정식(SDE)과 상미분 방정식(ODE)의 통합을 통해 혼합 샘플링 전략의 유연성을 활용하는 새로운 프레임워크인 MixGRPO를 제안한다. 이는 MDP 내에서 최적화 과정을 간소화하여 효율성을 개선하고 성능을 향상시킨다. 구체적으로, MixGRPO는 슬라이딩 윈도우 메커니즘을 도입하여 윈도우 내에서만 SDE 샘플링과 GRPO 가이드 최적화를 적용하고, 윈도우 외부에서는 ODE 샘플링을 적용한다. 이 설계는 샘플링의 무작위성을 윈도우 내의 시간 단계로 제한함으로써 최적화 오버헤드를 줄이고, 더 집중된 그래디언트 업데이트를 통해 수렴을 가속화한다. 또한, 슬라이딩 윈도우를 벗어난 시간 단계는 최적화에 포함되지 않으므로, 더 높은 차수의 솔버가 샘플링에 사용될 수 있다. 따라서 우리는 MixGRPO-Flash라는 더 빠른 변형을 제안하며, 이는 훈련 효율성을 더욱 개선하면서도 비슷한 성능을 달성한다. MixGRPO는 인간 선호도 정렬의 여러 차원에서 상당한 이점을 보이며, DanceGRPO를 효과성과 효율성 모두에서 능가하며, 훈련 시간을 거의 50% 단축한다. 특히, MixGRPO-Flash는 훈련 시간을 71% 더 단축한다. 코드와 모델은 https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}에서 확인할 수 있다.
English
Although GRPO substantially enhances flow matching models in human preference alignment of image generation, methods such as FlowGRPO still exhibit inefficiency due to the necessity of sampling and optimizing over all denoising steps specified by the Markov Decision Process (MDP). In this paper, we propose MixGRPO, a novel framework that leverages the flexibility of mixed sampling strategies through the integration of stochastic differential equations (SDE) and ordinary differential equations (ODE). This streamlines the optimization process within the MDP to improve efficiency and boost performance. Specifically, MixGRPO introduces a sliding window mechanism, using SDE sampling and GRPO-guided optimization only within the window, while applying ODE sampling outside. This design confines sampling randomness to the time-steps within the window, thereby reducing the optimization overhead, and allowing for more focused gradient updates to accelerate convergence. Additionally, as time-steps beyond the sliding window are not involved in optimization, higher-order solvers are supported for sampling. So we present a faster variant, termed MixGRPO-Flash, which further improves training efficiency while achieving comparable performance. MixGRPO exhibits substantial gains across multiple dimensions of human preference alignment, outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50% lower training time. Notably, MixGRPO-Flash further reduces training time by 71%. Codes and models are available at https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
PDF82July 31, 2025