ProReflow: Progressieve Herstroomlijning met Ontbonden Snelheid
ProReflow: Progressive Reflow with Decomposed Velocity
March 5, 2025
Auteurs: Lei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang
cs.AI
Samenvatting
Diffusiemodellen hebben aanzienlijke vooruitgang geboekt in zowel beeld- als videogeneratie, maar kampen nog steeds met hoge rekenkosten. Als een effectieve oplossing streeft flow matching ernaar het diffusieproces van diffusiemodellen om te vormen tot een rechte lijn voor generatie in een paar stappen of zelfs in één stap. In dit artikel stellen we echter dat de oorspronkelijke trainingspipeline van flow matching niet optimaal is en introduceren we twee technieken om deze te verbeteren. Ten eerste introduceren we progressieve reflow, waarbij de diffusiemodellen geleidelijk worden omgevormd in lokale tijdsstappen totdat het hele diffusieproces is voltooid, wat de moeilijkheidsgraad van flow matching vermindert. Ten tweede introduceren we aligned v-prediction, dat het belang benadrukt van richtingsmatching in flow matching boven grootte-matching. Experimentele resultaten op SDv1.5 en SDXL demonstreren de effectiviteit van onze methode. Zo behaalt SDv1.5 bijvoorbeeld een FID van 10,70 op de MSCOCO2014 validatieset met slechts 4 bemonsteringsstappen, wat dicht in de buurt komt van ons leraarmodel (32 DDIM-stappen, FID = 10,05).
English
Diffusion models have achieved significant progress in both image and video
generation while still suffering from huge computation costs. As an effective
solution, flow matching aims to reflow the diffusion process of diffusion
models into a straight line for a few-step and even one-step generation.
However, in this paper, we suggest that the original training pipeline of flow
matching is not optimal and introduce two techniques to improve it. Firstly, we
introduce progressive reflow, which progressively reflows the diffusion models
in local timesteps until the whole diffusion progresses, reducing the
difficulty of flow matching. Second, we introduce aligned v-prediction, which
highlights the importance of direction matching in flow matching over magnitude
matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness
of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on
MSCOCO2014 validation set with only 4 sampling steps, close to our teacher
model (32 DDIM steps, FID = 10.05).Summary
AI-Generated Summary