InstaFlow: Ein Schritt genügt für hochwertige diffusionsbasierte Text-zu-Bild-Generierung
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation
September 12, 2023
Autoren: Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu
cs.AI
Zusammenfassung
Diffusionsmodelle haben die Text-zu-Bild-Generierung mit ihrer außergewöhnlichen Qualität und Kreativität revolutioniert. Allerdings ist ihr mehrstufiger Sampling-Prozess bekanntlich langsam und erfordert oft Dutzende von Inferenzschritten, um zufriedenstellende Ergebnisse zu erzielen. Frühere Versuche, die Sampling-Geschwindigkeit zu verbessern und die Rechenkosten durch Destillation zu reduzieren, waren nicht erfolgreich darin, ein funktionierendes Ein-Schritt-Modell zu erreichen. In diesem Artikel untersuchen wir eine kürzlich entwickelte Methode namens Rectified Flow, die bisher nur auf kleinen Datensätzen angewendet wurde. Der Kern von Rectified Flow liegt in seinem Reflow-Verfahren, das die Trajektorien von Wahrscheinlichkeitsflüssen begradigt, die Kopplung zwischen Rauschen und Bildern verfeinert und den Destillationsprozess mit Studentenmodellen erleichtert. Wir schlagen eine neuartige textkonditionierte Pipeline vor, um Stable Diffusion (SD) in ein ultraschnelles Ein-Schritt-Modell zu verwandeln, wobei wir feststellen, dass Reflow eine entscheidende Rolle bei der Verbesserung der Zuordnung zwischen Rauschen und Bildern spielt. Mit unserer neuen Pipeline schaffen wir, soweit uns bekannt ist, den ersten Ein-Schritt-Diffusions-basierten Text-zu-Bild-Generator mit SD-Bildqualität, der einen FID (Frechet Inception Distance) von 23,3 auf MS COCO 2017-5k erreicht und damit die bisherige State-of-the-Art-Technik, progressive Destillation, deutlich übertrifft (37,2 → 23,3 im FID). Durch die Nutzung eines erweiterten Netzwerks mit 1,7 Milliarden Parametern verbessern wir den FID weiter auf 22,4. Wir nennen unsere Ein-Schritt-Modelle InstaFlow. Auf MS COCO 2014-30k erzielt InstaFlow einen FID von 13,1 in nur 0,09 Sekunden, der beste Wert im ≤ 0,1 Sekunden-Regime, und übertrifft damit das kürzlich entwickelte StyleGAN-T (13,9 in 0,1 Sekunden). Bemerkenswerterweise betragen die Trainingskosten für InstaFlow nur 199 A100 GPU-Tage. Projektseite: https://github.com/gnobitab/InstaFlow.
English
Diffusion models have revolutionized text-to-image generation with its
exceptional quality and creativity. However, its multi-step sampling process is
known to be slow, often requiring tens of inference steps to obtain
satisfactory results. Previous attempts to improve its sampling speed and
reduce computational costs through distillation have been unsuccessful in
achieving a functional one-step model. In this paper, we explore a recent
method called Rectified Flow, which, thus far, has only been applied to small
datasets. The core of Rectified Flow lies in its reflow procedure, which
straightens the trajectories of probability flows, refines the coupling between
noises and images, and facilitates the distillation process with student
models. We propose a novel text-conditioned pipeline to turn Stable Diffusion
(SD) into an ultra-fast one-step model, in which we find reflow plays a
critical role in improving the assignment between noise and images. Leveraging
our new pipeline, we create, to the best of our knowledge, the first one-step
diffusion-based text-to-image generator with SD-level image quality, achieving
an FID (Frechet Inception Distance) of 23.3 on MS COCO 2017-5k, surpassing
the previous state-of-the-art technique, progressive distillation, by a
significant margin (37.2 rightarrow 23.3 in FID). By utilizing an
expanded network with 1.7B parameters, we further improve the FID to 22.4. We
call our one-step models InstaFlow. On MS COCO 2014-30k, InstaFlow
yields an FID of 13.1 in just 0.09 second, the best in leq 0.1 second
regime, outperforming the recent StyleGAN-T (13.9 in 0.1 second). Notably,
the training of InstaFlow only costs 199 A100 GPU days. Project
page:~https://github.com/gnobitab/InstaFlow.