MixFlow : Les distributions sources mixtes améliorent les flux rectifiés

Résumé

Les modèles de diffusion et leurs variantes, tels que les flux rectifiés, génèrent des images diverses et de haute qualité, mais ils restent entravés par un échantillonnage itératif lent dû aux trajectoires génératives fortement courbées qu'ils apprennent. Une cause importante de cette forte courbure, comme l'ont montré des travaux antérieurs, est l'indépendance entre la distribution source (gaussienne standard) et la distribution des données. Dans ce travail, nous abordons cette limitation par deux contributions complémentaires. Premièrement, nous tentons de nous affranchir de l'hypothèse gaussienne standard en introduisant κ-FC, une formulation générale qui conditionne la distribution source sur un signal arbitraire κ, l'alignant ainsi mieux sur la distribution des données. Ensuite, nous présentons MixFlow, une stratégie d'entraînement simple mais efficace qui réduit les courbures des trajectoires génératives et améliore considérablement l'efficacité de l'échantillonnage. MixFlow entraîne un modèle de flux sur des mélanges linéaires d'une distribution inconditionnelle fixe et d'une distribution basée sur κ-FC. Ce simple mélange améliore l'alignement entre la source et les données, offre une meilleure qualité de génération avec moins d'étapes d'échantillonnage requises et accélère considérablement la convergence de l'entraînement. En moyenne, notre procédure d'entraînement améliore la qualité de génération de 12 % en FID par rapport au flux rectifié standard et de 7 % par rapport aux précédentes méthodes de référence pour un budget d'échantillonnage fixe. Code disponible à l'adresse : https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

English

Diffusion models and their variations, such as rectified flows, generate diverse and high-quality images, but they are still hindered by slow iterative sampling caused by the highly curved generative paths they learn. An important cause of high curvature, as shown by previous work, is independence between the source distribution (standard Gaussian) and the data distribution. In this work, we tackle this limitation by two complementary contributions. First, we attempt to break away from the standard Gaussian assumption by introducing κ-FC, a general formulation that conditions the source distribution on an arbitrary signal κ that aligns it better with the data distribution. Then, we present MixFlow, a simple but effective training strategy that reduces the generative path curvatures and considerably improves sampling efficiency. MixFlow trains a flow model on linear mixtures of a fixed unconditional distribution and a κ-FC-based distribution. This simple mixture improves the alignment between the source and data, provides better generation quality with less required sampling steps, and accelerates the training convergence considerably. On average, our training procedure improves the generation quality by 12\% in FID compared to standard rectified flow and 7\% compared to previous baselines under a fixed sampling budget. Code available at: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

MixFlow : Les distributions sources mixtes améliorent les flux rectifiés

MixFlow: Mixed Source Distributions Improve Rectified Flows

Résumé

Support