Flash-GRPO : Alignement efficace pour la diffusion vidéo via une optimisation de politique en une seule étape

Résumé

L'Optimisation Relative de Politique par Groupes (Group Relative Policy Optimization, GRPO) est devenue essentielle pour aligner les modèles de diffusion vidéo sur les préférences humaines, mais elle se heurte à un goulot d'étranglement computationnel critique : l'entraînement d'un modèle de 14 milliards de paramètres nécessite généralement des centaines de jours GPU par expérience. Les méthodes d'efficacité existantes réduisent les coûts grâce à un sous-échantillonnage par fenêtre glissante des pas de temps d'entraînement, mais compromettent fondamentalement l'optimisation, présentant une instabilité sévère et ne parvenant pas à atteindre la performance complète de la trajectoire. Nous présentons Flash-GRPO, un cadre d'entraînement en une seule étape qui surpasse l'entraînement complet sur trajectoire en termes de qualité d'alignement sous de faibles budgets computationnels, tout en améliorant considérablement l'efficacité de l'entraînement. Flash-GRPO aborde deux défis critiques : le regroupement iso-temporel élimine la variance confondue par le pas de temps en imposant une cohérence temporelle par prompt, découplant ainsi la performance de la politique de la difficulté du pas de temps ; la rectification du gradient temporel neutralise le facteur d'échelle dépendant du temps qui provoque des magnitudes de gradient très incohérentes entre les pas de temps. Les expériences sur des modèles de 1,3 à 14 milliards de paramètres valident l'efficacité de Flash-GRPO, démontrant une accélération substantielle de l'entraînement avec une stabilité constante et une qualité d'alignement de pointe.

English

Group Relative Policy Optimization has emerged as essential for aligning video diffusion models with human preferences, but faces a critical computational bottleneck: training a 14B parametered model typically demands hundreds of GPU days per experiment. Existing efficiency methods reduce costs through sliding window subsampling training timesteps, but fundamentally compromise optimization, exhibiting severe instability and failing to reach full trajectory performance. We present Flash-GRPO, a single-step training framework that outperforms full trajectory training in alignment quality under low computational budgets while substantially improving training efficiency. Flash-GRPO addresses two critical challenges: iso-temporal grouping eliminates timestep-confounded variance by enforcing prompt-wise temporal consistency, decoupling policy performance from timestep difficulty; temporal gradient rectification neutralizes the time-dependent scaling factor that causes vastly inconsistent gradient magnitudes across timesteps. Experiments on 1.3B to 14B parameter models validate Flash-GRPO's effectiveness, demonstrating substantial training acceleration with consistent stability and state-of-the-art alignment quality.