ProReflow: Progressives Reflow mit zerlegter Geschwindigkeit
ProReflow: Progressive Reflow with Decomposed Velocity
March 5, 2025
Autoren: Lei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang
cs.AI
Zusammenfassung
Diffusionsmodelle haben sowohl in der Bild- als auch in der Videogenerierung bedeutende Fortschritte erzielt, leiden jedoch weiterhin unter hohen Rechenkosten. Als effektive Lösung zielt das Flow Matching darauf ab, den Diffusionsprozess von Diffusionsmodellen in eine gerade Linie umzuwandeln, um eine Generierung in wenigen Schritten oder sogar in einem einzigen Schritt zu ermöglichen. In diesem Artikel argumentieren wir jedoch, dass die ursprüngliche Trainingspipeline des Flow Matching nicht optimal ist und stellen zwei Techniken vor, um sie zu verbessern. Erstens führen wir das progressive Reflow ein, das die Diffusionsmodelle schrittweise in lokalen Zeitschritten umwandelt, bis der gesamte Diffusionsprozess abgeschlossen ist, wodurch die Schwierigkeit des Flow Matching reduziert wird. Zweitens führen wir die ausgerichtete v-Vorhersage ein, die die Bedeutung der Richtungsanpassung im Flow Matching gegenüber der Größenanpassung hervorhebt. Experimentelle Ergebnisse auf SDv1.5 und SDXL demonstrieren die Wirksamkeit unserer Methode. Beispielsweise erreicht SDv1.5 auf dem MSCOCO2014-Validierungssatz einen FID von 10,70 mit nur 4 Abtastschritten, was nahe an unserem Lehrermodell liegt (32 DDIM-Schritte, FID = 10,05).
English
Diffusion models have achieved significant progress in both image and video
generation while still suffering from huge computation costs. As an effective
solution, flow matching aims to reflow the diffusion process of diffusion
models into a straight line for a few-step and even one-step generation.
However, in this paper, we suggest that the original training pipeline of flow
matching is not optimal and introduce two techniques to improve it. Firstly, we
introduce progressive reflow, which progressively reflows the diffusion models
in local timesteps until the whole diffusion progresses, reducing the
difficulty of flow matching. Second, we introduce aligned v-prediction, which
highlights the importance of direction matching in flow matching over magnitude
matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness
of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on
MSCOCO2014 validation set with only 4 sampling steps, close to our teacher
model (32 DDIM steps, FID = 10.05).Summary
AI-Generated Summary