ProReflow: Reflujo Progresivo con Velocidad Descompuesta

Resumen

Los modelos de difusión han logrado avances significativos tanto en la generación de imágenes como de videos, aunque aún enfrentan altos costos computacionales. Como una solución efectiva, el emparejamiento de flujo (flow matching) busca redirigir el proceso de difusión de estos modelos hacia una línea recta, permitiendo generación en pocos pasos e incluso en un solo paso. Sin embargo, en este artículo, sugerimos que la pipeline de entrenamiento original del emparejamiento de flujo no es óptima y presentamos dos técnicas para mejorarla. En primer lugar, introducimos el reflujo progresivo, que redirige progresivamente los modelos de difusión en intervalos de tiempo locales hasta abarcar todo el proceso de difusión, reduciendo así la dificultad del emparejamiento de flujo. En segundo lugar, presentamos la predicción alineada en v, que resalta la importancia de emparejar la dirección en el emparejamiento de flujo sobre el emparejamiento de magnitud. Los resultados experimentales en SDv1.5 y SDXL demuestran la efectividad de nuestro método. Por ejemplo, al aplicarlo en SDv1.5, se logra un FID de 10.70 en el conjunto de validación de MSCOCO2014 con solo 4 pasos de muestreo, cercano al rendimiento de nuestro modelo de referencia (32 pasos DDIM, FID = 10.05).

English

Diffusion models have achieved significant progress in both image and video generation while still suffering from huge computation costs. As an effective solution, flow matching aims to reflow the diffusion process of diffusion models into a straight line for a few-step and even one-step generation. However, in this paper, we suggest that the original training pipeline of flow matching is not optimal and introduce two techniques to improve it. Firstly, we introduce progressive reflow, which progressively reflows the diffusion models in local timesteps until the whole diffusion progresses, reducing the difficulty of flow matching. Second, we introduce aligned v-prediction, which highlights the importance of direction matching in flow matching over magnitude matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on MSCOCO2014 validation set with only 4 sampling steps, close to our teacher model (32 DDIM steps, FID = 10.05).

ProReflow: Reflujo Progresivo con Velocidad Descompuesta

ProReflow: Progressive Reflow with Decomposed Velocity

Resumen

Support