MixFlow: Gemischte Quellverteilungen verbessern Rektifizierte Flüsse

Zusammenfassung

Diffusionsmodelle und deren Varianten, wie etwa rectified flows, erzeugen vielfältige und hochwertige Bilder, werden jedoch nach wie vor durch langsames iteratives Sampling behindert, das durch die stark gekrümmten generativen Pfade verursacht wird, die sie erlernen. Eine wichtige Ursache für diese hohe Krümmung ist, wie frühere Arbeiten gezeigt haben, die Unabhängigkeit zwischen der Quellverteilung (Standard-Gaußverteilung) und der Datenverteilung. In dieser Arbeit gehen wir diese Einschränkung durch zwei komplementäre Beiträge an. Erstens versuchen wir, uns von der Standard-Gauß-Annahme zu lösen, indem wir κ-FC einführen, eine allgemeine Formulierung, die die Quellverteilung auf ein beliebiges Signal κ konditioniert und sie so besser an die Datenverteilung anpasst. Zweitens stellen wir MixFlow vor, eine einfache, aber effektive Trainingsstrategie, die die Krümmung der generativen Pfade reduziert und die Sampling-Effizienz erheblich verbessert. MixFlow trainiert ein Flow-Modell auf linearen Mischungen einer festen unbedingten Verteilung und einer auf κ-FC basierenden Verteilung. Diese einfache Mischung verbessert die Ausrichtung zwischen Quelle und Daten, ermöglicht eine bessere Generierungsqualität mit weniger erforderlichen Sampling-Schritten und beschleunigt die Trainingskonvergenz erheblich. Im Durchschnitt verbessert unser Trainingsverfahren die Generierungsqualität bei einem festen Sampling-Budget um 12 % im FID gegenüber standardmäßigen rectified flows und um 7 % gegenüber früheren Baseline-Modellen. Code verfügbar unter: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

English

Diffusion models and their variations, such as rectified flows, generate diverse and high-quality images, but they are still hindered by slow iterative sampling caused by the highly curved generative paths they learn. An important cause of high curvature, as shown by previous work, is independence between the source distribution (standard Gaussian) and the data distribution. In this work, we tackle this limitation by two complementary contributions. First, we attempt to break away from the standard Gaussian assumption by introducing κ-FC, a general formulation that conditions the source distribution on an arbitrary signal κ that aligns it better with the data distribution. Then, we present MixFlow, a simple but effective training strategy that reduces the generative path curvatures and considerably improves sampling efficiency. MixFlow trains a flow model on linear mixtures of a fixed unconditional distribution and a κ-FC-based distribution. This simple mixture improves the alignment between the source and data, provides better generation quality with less required sampling steps, and accelerates the training convergence considerably. On average, our training procedure improves the generation quality by 12\% in FID compared to standard rectified flow and 7\% compared to previous baselines under a fixed sampling budget. Code available at: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}

MixFlow: Gemischte Quellverteilungen verbessern Rektifizierte Flüsse

MixFlow: Mixed Source Distributions Improve Rectified Flows

Zusammenfassung

Support