ProReflow: Riflusso Progressivo con Velocità Decomposta

Abstract

I modelli di diffusione hanno ottenuto progressi significativi sia nella generazione di immagini che di video, pur soffrendo ancora di elevati costi computazionali. Come soluzione efficace, il flow matching mira a riorientare il processo di diffusione dei modelli di diffusione in una linea retta per una generazione in pochi passaggi o addirittura in un solo passaggio. Tuttavia, in questo articolo, suggeriamo che la pipeline di training originale del flow matching non è ottimale e introduciamo due tecniche per migliorarla. In primo luogo, introduciamo il progressive reflow, che riorienta progressivamente i modelli di diffusione in intervalli di tempo locali fino a coprire l'intero processo di diffusione, riducendo la difficoltà del flow matching. In secondo luogo, introduciamo l'aligned v-prediction, che evidenzia l'importanza della corrispondenza di direzione nel flow matching rispetto alla corrispondenza di magnitudine. I risultati sperimentali su SDv1.5 e SDXL dimostrano l'efficacia del nostro metodo; ad esempio, applicato a SDv1.5, raggiunge un FID di 10.70 sul set di validazione MSCOCO2014 con solo 4 passaggi di campionamento, avvicinandosi al nostro modello insegnante (32 passaggi DDIM, FID = 10.05).

English

Diffusion models have achieved significant progress in both image and video generation while still suffering from huge computation costs. As an effective solution, flow matching aims to reflow the diffusion process of diffusion models into a straight line for a few-step and even one-step generation. However, in this paper, we suggest that the original training pipeline of flow matching is not optimal and introduce two techniques to improve it. Firstly, we introduce progressive reflow, which progressively reflows the diffusion models in local timesteps until the whole diffusion progresses, reducing the difficulty of flow matching. Second, we introduce aligned v-prediction, which highlights the importance of direction matching in flow matching over magnitude matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on MSCOCO2014 validation set with only 4 sampling steps, close to our teacher model (32 DDIM steps, FID = 10.05).

ProReflow: Riflusso Progressivo con Velocità Decomposta

ProReflow: Progressive Reflow with Decomposed Velocity

Abstract

Support