InstaFlow: Un solo passaggio è sufficiente per una generazione di immagini da testo di alta qualità basata su diffusione

Abstract

I modelli di diffusione hanno rivoluzionato la generazione di immagini da testo grazie alla loro qualità e creatività eccezionali. Tuttavia, il loro processo di campionamento multi-step è noto per essere lento, spesso richiedendo decine di passaggi di inferenza per ottenere risultati soddisfacenti. I precedenti tentativi di migliorare la velocità di campionamento e ridurre i costi computazionali attraverso la distillazione non sono riusciti a ottenere un modello funzionale a un solo passaggio. In questo articolo, esploriamo un metodo recente chiamato Rectified Flow, che finora è stato applicato solo a piccoli dataset. Il cuore di Rectified Flow risiede nella sua procedura di reflow, che raddrizza le traiettorie dei flussi di probabilità, affina l'accoppiamento tra rumori e immagini e facilita il processo di distillazione con modelli studente. Proponiamo una nuova pipeline condizionata al testo per trasformare Stable Diffusion (SD) in un modello ultra-veloce a un solo passaggio, in cui il reflow svolge un ruolo cruciale nel migliorare l'assegnazione tra rumore e immagini. Sfruttando la nostra nuova pipeline, creiamo, a nostra conoscenza, il primo generatore di immagini da testo basato su diffusione a un solo passaggio con qualità di immagine paragonabile a SD, raggiungendo un FID (Frechet Inception Distance) di 23.3 su MS COCO 2017-5k, superando di gran lunga la precedente tecnica all'avanguardia, la distillazione progressiva (37.2 → 23.3 in FID). Utilizzando una rete espansa con 1.7 miliardi di parametri, miglioriamo ulteriormente l'FID a 22.4. Chiamiamo i nostri modelli a un solo passaggio InstaFlow. Su MS COCO 2014-30k, InstaFlow produce un FID di 13.1 in soli 0.09 secondi, il migliore nel regime ≤ 0.1 secondi, superando il recente StyleGAN-T (13.9 in 0.1 secondo). È degno di nota che l'addestramento di InstaFlow richiede solo 199 giorni GPU A100. Pagina del progetto: https://github.com/gnobitab/InstaFlow.

English

Diffusion models have revolutionized text-to-image generation with its exceptional quality and creativity. However, its multi-step sampling process is known to be slow, often requiring tens of inference steps to obtain satisfactory results. Previous attempts to improve its sampling speed and reduce computational costs through distillation have been unsuccessful in achieving a functional one-step model. In this paper, we explore a recent method called Rectified Flow, which, thus far, has only been applied to small datasets. The core of Rectified Flow lies in its reflow procedure, which straightens the trajectories of probability flows, refines the coupling between noises and images, and facilitates the distillation process with student models. We propose a novel text-conditioned pipeline to turn Stable Diffusion (SD) into an ultra-fast one-step model, in which we find reflow plays a critical role in improving the assignment between noise and images. Leveraging our new pipeline, we create, to the best of our knowledge, the first one-step diffusion-based text-to-image generator with SD-level image quality, achieving an FID (Frechet Inception Distance) of 23.3 on MS COCO 2017-5k, surpassing the previous state-of-the-art technique, progressive distillation, by a significant margin (37.2 rightarrow 23.3 in FID). By utilizing an expanded network with 1.7B parameters, we further improve the FID to 22.4. We call our one-step models InstaFlow. On MS COCO 2014-30k, InstaFlow yields an FID of 13.1 in just 0.09 second, the best in leq 0.1 second regime, outperforming the recent StyleGAN-T (13.9 in 0.1 second). Notably, the training of InstaFlow only costs 199 A100 GPU days. Project page:~https://github.com/gnobitab/InstaFlow.

InstaFlow: Un solo passaggio è sufficiente per una generazione di immagini da testo di alta qualità basata su diffusione

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

Abstract

Support