ProReflow: Reflujo Progresivo con Velocidad Descompuesta
ProReflow: Progressive Reflow with Decomposed Velocity
March 5, 2025
Autores: Lei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang
cs.AI
Resumen
Los modelos de difusión han logrado avances significativos tanto en la generación de imágenes como de videos, aunque aún enfrentan altos costos computacionales. Como una solución efectiva, el emparejamiento de flujo (flow matching) busca redirigir el proceso de difusión de estos modelos hacia una línea recta, permitiendo generación en pocos pasos e incluso en un solo paso. Sin embargo, en este artículo, sugerimos que la pipeline de entrenamiento original del emparejamiento de flujo no es óptima y presentamos dos técnicas para mejorarla. En primer lugar, introducimos el reflujo progresivo, que redirige progresivamente los modelos de difusión en intervalos de tiempo locales hasta abarcar todo el proceso de difusión, reduciendo así la dificultad del emparejamiento de flujo. En segundo lugar, presentamos la predicción alineada en v, que resalta la importancia de emparejar la dirección en el emparejamiento de flujo sobre el emparejamiento de magnitud. Los resultados experimentales en SDv1.5 y SDXL demuestran la efectividad de nuestro método. Por ejemplo, al aplicarlo en SDv1.5, se logra un FID de 10.70 en el conjunto de validación de MSCOCO2014 con solo 4 pasos de muestreo, cercano al rendimiento de nuestro modelo de referencia (32 pasos DDIM, FID = 10.05).
English
Diffusion models have achieved significant progress in both image and video
generation while still suffering from huge computation costs. As an effective
solution, flow matching aims to reflow the diffusion process of diffusion
models into a straight line for a few-step and even one-step generation.
However, in this paper, we suggest that the original training pipeline of flow
matching is not optimal and introduce two techniques to improve it. Firstly, we
introduce progressive reflow, which progressively reflows the diffusion models
in local timesteps until the whole diffusion progresses, reducing the
difficulty of flow matching. Second, we introduce aligned v-prediction, which
highlights the importance of direction matching in flow matching over magnitude
matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness
of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on
MSCOCO2014 validation set with only 4 sampling steps, close to our teacher
model (32 DDIM steps, FID = 10.05).Summary
AI-Generated Summary