ProReflow: Refluxo Progressivo com Velocidade Decomposta

Resumo

Os modelos de difusão têm alcançado progressos significativos tanto na geração de imagens quanto de vídeos, mas ainda sofrem com altos custos computacionais. Como uma solução eficaz, o flow matching visa redirecionar o processo de difusão dos modelos de difusão para uma linha reta, permitindo geração em poucos passos ou até mesmo em um único passo. No entanto, neste artigo, sugerimos que o pipeline de treinamento original do flow matching não é ideal e introduzimos duas técnicas para melhorá-lo. Primeiramente, apresentamos o reflow progressivo, que redireciona progressivamente os modelos de difusão em intervalos de tempo locais até que todo o processo de difusão seja concluído, reduzindo a dificuldade do flow matching. Em segundo lugar, introduzimos a previsão v-alinhada, que destaca a importância do alinhamento de direção no flow matching em vez do alinhamento de magnitude. Resultados experimentais no SDv1.5 e SDXL demonstram a eficácia do nosso método. Por exemplo, ao aplicar no SDv1.5, alcançamos um FID de 10,70 no conjunto de validação MSCOCO2014 com apenas 4 passos de amostragem, próximo ao nosso modelo de referência (32 passos DDIM, FID = 10,05).

English

Diffusion models have achieved significant progress in both image and video generation while still suffering from huge computation costs. As an effective solution, flow matching aims to reflow the diffusion process of diffusion models into a straight line for a few-step and even one-step generation. However, in this paper, we suggest that the original training pipeline of flow matching is not optimal and introduce two techniques to improve it. Firstly, we introduce progressive reflow, which progressively reflows the diffusion models in local timesteps until the whole diffusion progresses, reducing the difficulty of flow matching. Second, we introduce aligned v-prediction, which highlights the importance of direction matching in flow matching over magnitude matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on MSCOCO2014 validation set with only 4 sampling steps, close to our teacher model (32 DDIM steps, FID = 10.05).

ProReflow: Refluxo Progressivo com Velocidade Decomposta

ProReflow: Progressive Reflow with Decomposed Velocity

Resumo

Summary

Support

Support