MixFlow: Las distribuciones de origen mixtas mejoran los flujos rectificados

Resumen

Los modelos de difusión y sus variaciones, como los flujos rectificados, generan imágenes diversas y de alta calidad, pero aún se ven limitados por un muestreo iterativo lento causado por las trayectorias generativas altamente curvadas que aprenden. Una causa importante de la alta curvatura, como ha demostrado trabajo previo, es la independencia entre la distribución fuente (gaussiana estándar) y la distribución de datos. En este trabajo, abordamos esta limitación mediante dos contribuciones complementarias. Primero, intentamos alejarnos del supuesto gaussiano estándar introduciendo κ-FC, una formulación general que condiciona la distribución fuente sobre una señal arbitraria κ que la alinea mejor con la distribución de datos. Luego, presentamos MixFlow, una estrategia de entrenamiento simple pero efectiva que reduce las curvaturas de la trayectoria generativa y mejora considerablemente la eficiencia del muestreo. MixFlow entrena un modelo de flujo en mezclas lineales de una distribución incondicional fija y una distribución basada en κ-FC. Esta mezcla simple mejora la alineación entre la fuente y los datos, proporciona una mejor calidad de generación con menos pasos de muestreo requeridos y acelera considerablemente la convergencia del entrenamiento. En promedio, nuestro procedimiento de entrenamiento mejora la calidad de generación en un 12% en FID en comparación con el flujo rectificado estándar y en un 7% en comparación con líneas base anteriores bajo un presupuesto fijo de muestreo. Código disponible en: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

English

Diffusion models and their variations, such as rectified flows, generate diverse and high-quality images, but they are still hindered by slow iterative sampling caused by the highly curved generative paths they learn. An important cause of high curvature, as shown by previous work, is independence between the source distribution (standard Gaussian) and the data distribution. In this work, we tackle this limitation by two complementary contributions. First, we attempt to break away from the standard Gaussian assumption by introducing κ-FC, a general formulation that conditions the source distribution on an arbitrary signal κ that aligns it better with the data distribution. Then, we present MixFlow, a simple but effective training strategy that reduces the generative path curvatures and considerably improves sampling efficiency. MixFlow trains a flow model on linear mixtures of a fixed unconditional distribution and a κ-FC-based distribution. This simple mixture improves the alignment between the source and data, provides better generation quality with less required sampling steps, and accelerates the training convergence considerably. On average, our training procedure improves the generation quality by 12\% in FID compared to standard rectified flow and 7\% compared to previous baselines under a fixed sampling budget. Code available at: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

MixFlow: Las distribuciones de origen mixtas mejoran los flujos rectificados

MixFlow: Mixed Source Distributions Improve Rectified Flows

Resumen

Support