ChatPaper.aiChatPaper

InstaFlow: Un solo paso es suficiente para la generación de imágenes de alta calidad basada en difusión a partir de texto

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

September 12, 2023
Autores: Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu
cs.AI

Resumen

Los modelos de difusión han revolucionado la generación de imágenes a partir de texto gracias a su calidad excepcional y creatividad. Sin embargo, su proceso de muestreo de múltiples pasos es conocido por ser lento, requiriendo a menudo decenas de pasos de inferencia para obtener resultados satisfactorios. Intentos previos de mejorar su velocidad de muestreo y reducir costos computacionales mediante destilación no han logrado obtener un modelo funcional de un solo paso. En este artículo, exploramos un método reciente llamado Rectified Flow, que, hasta ahora, solo se había aplicado a conjuntos de datos pequeños. El núcleo de Rectified Flow radica en su procedimiento de reflujo, que endereza las trayectorias de los flujos de probabilidad, refina el acoplamiento entre ruidos e imágenes, y facilita el proceso de destilación con modelos estudiantiles. Proponemos una novedosa pipeline condicionada por texto para convertir Stable Diffusion (SD) en un modelo ultra-rápido de un solo paso, donde encontramos que el reflujo juega un papel crítico en mejorar la asignación entre ruido e imágenes. Aprovechando nuestra nueva pipeline, creamos, hasta donde sabemos, el primer generador de imágenes a partir de texto basado en difusión de un solo paso con calidad de imagen a nivel SD, logrando un FID (Frechet Inception Distance) de 23.3 en MS COCO 2017-5k, superando significativamente la técnica anterior más avanzada, destilación progresiva (37.2 → 23.3 en FID). Al utilizar una red expandida con 1.7B parámetros, mejoramos aún más el FID a 22.4. Llamamos a nuestros modelos de un solo paso InstaFlow. En MS COCO 2014-30k, InstaFlow produce un FID de 13.1 en solo 0.09 segundos, el mejor en el régimen de ≤ 0.1 segundos, superando al reciente StyleGAN-T (13.9 en 0.1 segundo). Notablemente, el entrenamiento de InstaFlow solo cuesta 199 días de GPU A100. Página del proyecto: https://github.com/gnobitab/InstaFlow.
English
Diffusion models have revolutionized text-to-image generation with its exceptional quality and creativity. However, its multi-step sampling process is known to be slow, often requiring tens of inference steps to obtain satisfactory results. Previous attempts to improve its sampling speed and reduce computational costs through distillation have been unsuccessful in achieving a functional one-step model. In this paper, we explore a recent method called Rectified Flow, which, thus far, has only been applied to small datasets. The core of Rectified Flow lies in its reflow procedure, which straightens the trajectories of probability flows, refines the coupling between noises and images, and facilitates the distillation process with student models. We propose a novel text-conditioned pipeline to turn Stable Diffusion (SD) into an ultra-fast one-step model, in which we find reflow plays a critical role in improving the assignment between noise and images. Leveraging our new pipeline, we create, to the best of our knowledge, the first one-step diffusion-based text-to-image generator with SD-level image quality, achieving an FID (Frechet Inception Distance) of 23.3 on MS COCO 2017-5k, surpassing the previous state-of-the-art technique, progressive distillation, by a significant margin (37.2 rightarrow 23.3 in FID). By utilizing an expanded network with 1.7B parameters, we further improve the FID to 22.4. We call our one-step models InstaFlow. On MS COCO 2014-30k, InstaFlow yields an FID of 13.1 in just 0.09 second, the best in leq 0.1 second regime, outperforming the recent StyleGAN-T (13.9 in 0.1 second). Notably, the training of InstaFlow only costs 199 A100 GPU days. Project page:~https://github.com/gnobitab/InstaFlow.
PDF321December 15, 2024