ChatPaper.aiChatPaper

InstaFlow : Une seule étape suffit pour une génération d'images de haute qualité basée sur la diffusion à partir de texte

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

September 12, 2023
Auteurs: Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu
cs.AI

Résumé

Les modèles de diffusion ont révolutionné la génération d'images à partir de texte grâce à leur qualité et créativité exceptionnelles. Cependant, leur processus d'échantillonnage en plusieurs étapes est réputé lent, nécessitant souvent des dizaines d'étapes d'inférence pour obtenir des résultats satisfaisants. Les tentatives précédentes visant à améliorer la vitesse d'échantillonnage et à réduire les coûts de calcul par distillation n'ont pas réussi à produire un modèle fonctionnel en une seule étape. Dans cet article, nous explorons une méthode récente appelée Rectified Flow, qui, jusqu'à présent, n'a été appliquée qu'à de petits ensembles de données. Le cœur de Rectified Flow réside dans sa procédure de reflow, qui redresse les trajectoires des flux de probabilité, affine le couplage entre les bruits et les images, et facilite le processus de distillation avec des modèles étudiants. Nous proposons un nouveau pipeline conditionné par le texte pour transformer Stable Diffusion (SD) en un modèle ultra-rapide en une seule étape, dans lequel nous constatons que le reflow joue un rôle crucial dans l'amélioration de l'association entre le bruit et les images. En exploitant notre nouveau pipeline, nous créons, à notre connaissance, le premier générateur d'images à partir de texte basé sur la diffusion en une seule étape avec une qualité d'image comparable à SD, atteignant un FID (Distance de Fréchet Inception) de 23,3 sur MS COCO 2017-5k, surpassant largement la technique précédente de pointe, la distillation progressive (37,2 → 23,3 en FID). En utilisant un réseau étendu avec 1,7 milliard de paramètres, nous améliorons encore le FID à 22,4. Nous appelons nos modèles en une seule étape InstaFlow. Sur MS COCO 2014-30k, InstaFlow produit un FID de 13,1 en seulement 0,09 seconde, le meilleur dans le régime ≤ 0,1 seconde, surpassant le récent StyleGAN-T (13,9 en 0,1 seconde). Notamment, l'entraînement d'InstaFlow ne coûte que 199 jours GPU A100. Page du projet : https://github.com/gnobitab/InstaFlow.
English
Diffusion models have revolutionized text-to-image generation with its exceptional quality and creativity. However, its multi-step sampling process is known to be slow, often requiring tens of inference steps to obtain satisfactory results. Previous attempts to improve its sampling speed and reduce computational costs through distillation have been unsuccessful in achieving a functional one-step model. In this paper, we explore a recent method called Rectified Flow, which, thus far, has only been applied to small datasets. The core of Rectified Flow lies in its reflow procedure, which straightens the trajectories of probability flows, refines the coupling between noises and images, and facilitates the distillation process with student models. We propose a novel text-conditioned pipeline to turn Stable Diffusion (SD) into an ultra-fast one-step model, in which we find reflow plays a critical role in improving the assignment between noise and images. Leveraging our new pipeline, we create, to the best of our knowledge, the first one-step diffusion-based text-to-image generator with SD-level image quality, achieving an FID (Frechet Inception Distance) of 23.3 on MS COCO 2017-5k, surpassing the previous state-of-the-art technique, progressive distillation, by a significant margin (37.2 rightarrow 23.3 in FID). By utilizing an expanded network with 1.7B parameters, we further improve the FID to 22.4. We call our one-step models InstaFlow. On MS COCO 2014-30k, InstaFlow yields an FID of 13.1 in just 0.09 second, the best in leq 0.1 second regime, outperforming the recent StyleGAN-T (13.9 in 0.1 second). Notably, the training of InstaFlow only costs 199 A100 GPU days. Project page:~https://github.com/gnobitab/InstaFlow.
PDF321December 15, 2024