InstaFlow: Eén Stap is Voldoende voor Hoogwaardige Diffusiegebaseerde Tekst-naar-Beeld Generatie
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation
September 12, 2023
Auteurs: Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu
cs.AI
Samenvatting
Diffusiemodellen hebben een revolutie teweeggebracht in tekst-naar-beeldgeneratie met hun uitzonderlijke kwaliteit en creativiteit. Echter staat hun meerstaps bemonsteringsproces bekend als traag, waarbij vaak tientallen inferentiestappen nodig zijn om bevredigende resultaten te behalen. Eerdere pogingen om de bemonsteringssnelheid te verbeteren en de rekenkosten te verlagen via distillatie waren niet succesvol in het bereiken van een functioneel eenstapsmodel. In dit artikel onderzoeken we een recente methode genaamd Rectified Flow, die tot nu toe alleen op kleine datasets is toegepast. De kern van Rectified Flow ligt in zijn reflow-procedure, die de trajecten van waarschijnlijkheidsstromen recht maakt, de koppeling tussen ruis en beelden verfijnt, en het distillatieproces met studentmodellen vergemakkelijkt. We stellen een nieuwe tekst-geconditioneerde pipeline voor om Stable Diffusion (SD) om te zetten in een ultrazwnel eenstapsmodel, waarbij we ontdekken dat reflow een cruciale rol speelt in het verbeteren van de toewijzing tussen ruis en beelden. Door gebruik te maken van onze nieuwe pipeline creëren we, voor zover wij weten, de eerste eenstaps diffusie-gebaseerde tekst-naar-beeldgenerator met SD-niveau beeldkwaliteit, die een FID (Frechet Inception Distance) van 23.3 behaalt op MS COCO 2017-5k, wat de vorige state-of-the-art techniek, progressieve distillatie, aanzienlijk overtreft (37.2 → 23.3 in FID). Door gebruik te maken van een uitgebreid netwerk met 1.7B parameters, verbeteren we de FID verder naar 22.4. We noemen onze eenstapsmodellen InstaFlow. Op MS COCO 2014-30k levert InstaFlow een FID van 13.1 in slechts 0.09 seconde, de beste in het ≤ 0.1 seconde regime, wat de recente StyleGAN-T overtreft (13.9 in 0.1 seconde). Opmerkelijk is dat de training van InstaFlow slechts 199 A100 GPU-dagen kost. Projectpagina: https://github.com/gnobitab/InstaFlow.
English
Diffusion models have revolutionized text-to-image generation with its
exceptional quality and creativity. However, its multi-step sampling process is
known to be slow, often requiring tens of inference steps to obtain
satisfactory results. Previous attempts to improve its sampling speed and
reduce computational costs through distillation have been unsuccessful in
achieving a functional one-step model. In this paper, we explore a recent
method called Rectified Flow, which, thus far, has only been applied to small
datasets. The core of Rectified Flow lies in its reflow procedure, which
straightens the trajectories of probability flows, refines the coupling between
noises and images, and facilitates the distillation process with student
models. We propose a novel text-conditioned pipeline to turn Stable Diffusion
(SD) into an ultra-fast one-step model, in which we find reflow plays a
critical role in improving the assignment between noise and images. Leveraging
our new pipeline, we create, to the best of our knowledge, the first one-step
diffusion-based text-to-image generator with SD-level image quality, achieving
an FID (Frechet Inception Distance) of 23.3 on MS COCO 2017-5k, surpassing
the previous state-of-the-art technique, progressive distillation, by a
significant margin (37.2 rightarrow 23.3 in FID). By utilizing an
expanded network with 1.7B parameters, we further improve the FID to 22.4. We
call our one-step models InstaFlow. On MS COCO 2014-30k, InstaFlow
yields an FID of 13.1 in just 0.09 second, the best in leq 0.1 second
regime, outperforming the recent StyleGAN-T (13.9 in 0.1 second). Notably,
the training of InstaFlow only costs 199 A100 GPU days. Project
page:~https://github.com/gnobitab/InstaFlow.