ChatPaper.aiChatPaper

ProReflow: Progressives Reflow mit zerlegter Geschwindigkeit

ProReflow: Progressive Reflow with Decomposed Velocity

March 5, 2025
Autoren: Lei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang
cs.AI

Zusammenfassung

Diffusionsmodelle haben sowohl in der Bild- als auch in der Videogenerierung bedeutende Fortschritte erzielt, leiden jedoch weiterhin unter hohen Rechenkosten. Als effektive Lösung zielt das Flow Matching darauf ab, den Diffusionsprozess von Diffusionsmodellen in eine gerade Linie umzuwandeln, um eine Generierung in wenigen Schritten oder sogar in einem einzigen Schritt zu ermöglichen. In diesem Artikel argumentieren wir jedoch, dass die ursprüngliche Trainingspipeline des Flow Matching nicht optimal ist und stellen zwei Techniken vor, um sie zu verbessern. Erstens führen wir das progressive Reflow ein, das die Diffusionsmodelle schrittweise in lokalen Zeitschritten umwandelt, bis der gesamte Diffusionsprozess abgeschlossen ist, wodurch die Schwierigkeit des Flow Matching reduziert wird. Zweitens führen wir die ausgerichtete v-Vorhersage ein, die die Bedeutung der Richtungsanpassung im Flow Matching gegenüber der Größenanpassung hervorhebt. Experimentelle Ergebnisse auf SDv1.5 und SDXL demonstrieren die Wirksamkeit unserer Methode. Beispielsweise erreicht SDv1.5 auf dem MSCOCO2014-Validierungssatz einen FID von 10,70 mit nur 4 Abtastschritten, was nahe an unserem Lehrermodell liegt (32 DDIM-Schritte, FID = 10,05).
English
Diffusion models have achieved significant progress in both image and video generation while still suffering from huge computation costs. As an effective solution, flow matching aims to reflow the diffusion process of diffusion models into a straight line for a few-step and even one-step generation. However, in this paper, we suggest that the original training pipeline of flow matching is not optimal and introduce two techniques to improve it. Firstly, we introduce progressive reflow, which progressively reflows the diffusion models in local timesteps until the whole diffusion progresses, reducing the difficulty of flow matching. Second, we introduce aligned v-prediction, which highlights the importance of direction matching in flow matching over magnitude matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on MSCOCO2014 validation set with only 4 sampling steps, close to our teacher model (32 DDIM steps, FID = 10.05).

Summary

AI-Generated Summary

PDF92March 10, 2025