ProReflow: Riflusso Progressivo con Velocità Decomposta
ProReflow: Progressive Reflow with Decomposed Velocity
March 5, 2025
Autori: Lei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang
cs.AI
Abstract
I modelli di diffusione hanno ottenuto progressi significativi sia nella generazione di immagini che di video, pur soffrendo ancora di elevati costi computazionali. Come soluzione efficace, il flow matching mira a riorientare il processo di diffusione dei modelli di diffusione in una linea retta per una generazione in pochi passaggi o addirittura in un solo passaggio. Tuttavia, in questo articolo, suggeriamo che la pipeline di training originale del flow matching non è ottimale e introduciamo due tecniche per migliorarla. In primo luogo, introduciamo il progressive reflow, che riorienta progressivamente i modelli di diffusione in intervalli di tempo locali fino a coprire l'intero processo di diffusione, riducendo la difficoltà del flow matching. In secondo luogo, introduciamo l'aligned v-prediction, che evidenzia l'importanza della corrispondenza di direzione nel flow matching rispetto alla corrispondenza di magnitudine. I risultati sperimentali su SDv1.5 e SDXL dimostrano l'efficacia del nostro metodo; ad esempio, applicato a SDv1.5, raggiunge un FID di 10.70 sul set di validazione MSCOCO2014 con solo 4 passaggi di campionamento, avvicinandosi al nostro modello insegnante (32 passaggi DDIM, FID = 10.05).
English
Diffusion models have achieved significant progress in both image and video
generation while still suffering from huge computation costs. As an effective
solution, flow matching aims to reflow the diffusion process of diffusion
models into a straight line for a few-step and even one-step generation.
However, in this paper, we suggest that the original training pipeline of flow
matching is not optimal and introduce two techniques to improve it. Firstly, we
introduce progressive reflow, which progressively reflows the diffusion models
in local timesteps until the whole diffusion progresses, reducing the
difficulty of flow matching. Second, we introduce aligned v-prediction, which
highlights the importance of direction matching in flow matching over magnitude
matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness
of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on
MSCOCO2014 validation set with only 4 sampling steps, close to our teacher
model (32 DDIM steps, FID = 10.05).Summary
AI-Generated Summary