ProReflow: Refluxo Progressivo com Velocidade Decomposta
ProReflow: Progressive Reflow with Decomposed Velocity
March 5, 2025
Autores: Lei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang
cs.AI
Resumo
Os modelos de difusão têm alcançado progressos significativos tanto na geração de imagens quanto de vídeos, mas ainda sofrem com altos custos computacionais. Como uma solução eficaz, o flow matching visa redirecionar o processo de difusão dos modelos de difusão para uma linha reta, permitindo geração em poucos passos ou até mesmo em um único passo. No entanto, neste artigo, sugerimos que o pipeline de treinamento original do flow matching não é ideal e introduzimos duas técnicas para melhorá-lo. Primeiramente, apresentamos o reflow progressivo, que redireciona progressivamente os modelos de difusão em intervalos de tempo locais até que todo o processo de difusão seja concluído, reduzindo a dificuldade do flow matching. Em segundo lugar, introduzimos a previsão v-alinhada, que destaca a importância do alinhamento de direção no flow matching em vez do alinhamento de magnitude. Resultados experimentais no SDv1.5 e SDXL demonstram a eficácia do nosso método. Por exemplo, ao aplicar no SDv1.5, alcançamos um FID de 10,70 no conjunto de validação MSCOCO2014 com apenas 4 passos de amostragem, próximo ao nosso modelo de referência (32 passos DDIM, FID = 10,05).
English
Diffusion models have achieved significant progress in both image and video
generation while still suffering from huge computation costs. As an effective
solution, flow matching aims to reflow the diffusion process of diffusion
models into a straight line for a few-step and even one-step generation.
However, in this paper, we suggest that the original training pipeline of flow
matching is not optimal and introduce two techniques to improve it. Firstly, we
introduce progressive reflow, which progressively reflows the diffusion models
in local timesteps until the whole diffusion progresses, reducing the
difficulty of flow matching. Second, we introduce aligned v-prediction, which
highlights the importance of direction matching in flow matching over magnitude
matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness
of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on
MSCOCO2014 validation set with only 4 sampling steps, close to our teacher
model (32 DDIM steps, FID = 10.05).Summary
AI-Generated Summary