ChatPaper.aiChatPaper

ProReflow : Reflux progressif avec décomposition de la vélocité

ProReflow: Progressive Reflow with Decomposed Velocity

March 5, 2025
Auteurs: Lei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang
cs.AI

Résumé

Les modèles de diffusion ont réalisé des progrès significatifs dans la génération d'images et de vidéos, tout en souffrant encore de coûts de calcul élevés. En tant que solution efficace, le flow matching vise à rediriger le processus de diffusion des modèles de diffusion en une ligne droite pour une génération en quelques étapes, voire en une seule étape. Cependant, dans cet article, nous suggérons que le pipeline d'entraînement original du flow matching n'est pas optimal et introduisons deux techniques pour l'améliorer. Premièrement, nous introduisons le reflow progressif, qui redirige progressivement les modèles de diffusion à des intervalles de temps locaux jusqu'à ce que l'ensemble du processus de diffusion soit achevé, réduisant ainsi la difficulté du flow matching. Deuxièmement, nous introduisons la prédiction v-alignée, qui met en avant l'importance de l'alignement des directions dans le flow matching par rapport à l'alignement des magnitudes. Les résultats expérimentaux sur SDv1.5 et SDXL démontrent l'efficacité de notre méthode. Par exemple, sur SDv1.5, nous obtenons un FID de 10,70 sur l'ensemble de validation MSCOCO2014 avec seulement 4 étapes d'échantillonnage, proche de notre modèle de référence (32 étapes DDIM, FID = 10,05).
English
Diffusion models have achieved significant progress in both image and video generation while still suffering from huge computation costs. As an effective solution, flow matching aims to reflow the diffusion process of diffusion models into a straight line for a few-step and even one-step generation. However, in this paper, we suggest that the original training pipeline of flow matching is not optimal and introduce two techniques to improve it. Firstly, we introduce progressive reflow, which progressively reflows the diffusion models in local timesteps until the whole diffusion progresses, reducing the difficulty of flow matching. Second, we introduce aligned v-prediction, which highlights the importance of direction matching in flow matching over magnitude matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on MSCOCO2014 validation set with only 4 sampling steps, close to our teacher model (32 DDIM steps, FID = 10.05).

Summary

AI-Generated Summary

PDF92March 10, 2025