ChatPaper.aiChatPaper

InstaFlow: Ein Schritt genügt für hochwertige diffusionsbasierte Text-zu-Bild-Generierung

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

September 12, 2023
Autoren: Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu
cs.AI

Zusammenfassung

Diffusionsmodelle haben die Text-zu-Bild-Generierung mit ihrer außergewöhnlichen Qualität und Kreativität revolutioniert. Allerdings ist ihr mehrstufiger Sampling-Prozess bekanntlich langsam und erfordert oft Dutzende von Inferenzschritten, um zufriedenstellende Ergebnisse zu erzielen. Frühere Versuche, die Sampling-Geschwindigkeit zu verbessern und die Rechenkosten durch Destillation zu reduzieren, waren nicht erfolgreich darin, ein funktionierendes Ein-Schritt-Modell zu erreichen. In diesem Artikel untersuchen wir eine kürzlich entwickelte Methode namens Rectified Flow, die bisher nur auf kleinen Datensätzen angewendet wurde. Der Kern von Rectified Flow liegt in seinem Reflow-Verfahren, das die Trajektorien von Wahrscheinlichkeitsflüssen begradigt, die Kopplung zwischen Rauschen und Bildern verfeinert und den Destillationsprozess mit Studentenmodellen erleichtert. Wir schlagen eine neuartige textkonditionierte Pipeline vor, um Stable Diffusion (SD) in ein ultraschnelles Ein-Schritt-Modell zu verwandeln, wobei wir feststellen, dass Reflow eine entscheidende Rolle bei der Verbesserung der Zuordnung zwischen Rauschen und Bildern spielt. Mit unserer neuen Pipeline schaffen wir, soweit uns bekannt ist, den ersten Ein-Schritt-Diffusions-basierten Text-zu-Bild-Generator mit SD-Bildqualität, der einen FID (Frechet Inception Distance) von 23,3 auf MS COCO 2017-5k erreicht und damit die bisherige State-of-the-Art-Technik, progressive Destillation, deutlich übertrifft (37,2 → 23,3 im FID). Durch die Nutzung eines erweiterten Netzwerks mit 1,7 Milliarden Parametern verbessern wir den FID weiter auf 22,4. Wir nennen unsere Ein-Schritt-Modelle InstaFlow. Auf MS COCO 2014-30k erzielt InstaFlow einen FID von 13,1 in nur 0,09 Sekunden, der beste Wert im ≤ 0,1 Sekunden-Regime, und übertrifft damit das kürzlich entwickelte StyleGAN-T (13,9 in 0,1 Sekunden). Bemerkenswerterweise betragen die Trainingskosten für InstaFlow nur 199 A100 GPU-Tage. Projektseite: https://github.com/gnobitab/InstaFlow.
English
Diffusion models have revolutionized text-to-image generation with its exceptional quality and creativity. However, its multi-step sampling process is known to be slow, often requiring tens of inference steps to obtain satisfactory results. Previous attempts to improve its sampling speed and reduce computational costs through distillation have been unsuccessful in achieving a functional one-step model. In this paper, we explore a recent method called Rectified Flow, which, thus far, has only been applied to small datasets. The core of Rectified Flow lies in its reflow procedure, which straightens the trajectories of probability flows, refines the coupling between noises and images, and facilitates the distillation process with student models. We propose a novel text-conditioned pipeline to turn Stable Diffusion (SD) into an ultra-fast one-step model, in which we find reflow plays a critical role in improving the assignment between noise and images. Leveraging our new pipeline, we create, to the best of our knowledge, the first one-step diffusion-based text-to-image generator with SD-level image quality, achieving an FID (Frechet Inception Distance) of 23.3 on MS COCO 2017-5k, surpassing the previous state-of-the-art technique, progressive distillation, by a significant margin (37.2 rightarrow 23.3 in FID). By utilizing an expanded network with 1.7B parameters, we further improve the FID to 22.4. We call our one-step models InstaFlow. On MS COCO 2014-30k, InstaFlow yields an FID of 13.1 in just 0.09 second, the best in leq 0.1 second regime, outperforming the recent StyleGAN-T (13.9 in 0.1 second). Notably, the training of InstaFlow only costs 199 A100 GPU days. Project page:~https://github.com/gnobitab/InstaFlow.
PDF321December 15, 2024