ChatPaper.aiChatPaper

InstaFlow: Um Passo é Suficiente para Geração de Imagens de Alta Qualidade Baseada em Difusão a partir de Texto

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

September 12, 2023
Autores: Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu
cs.AI

Resumo

Os modelos de difusão revolucionaram a geração de imagens a partir de texto com sua qualidade excepcional e criatividade. No entanto, seu processo de amostragem em múltiplas etapas é conhecido por ser lento, frequentemente exigindo dezenas de passos de inferência para obter resultados satisfatórios. Tentativas anteriores de melhorar sua velocidade de amostragem e reduzir custos computacionais por meio de destilação não conseguiram alcançar um modelo funcional de uma única etapa. Neste artigo, exploramos um método recente chamado Rectified Flow, que, até agora, só foi aplicado a pequenos conjuntos de dados. O cerne do Rectified Flow está em seu procedimento de reflow, que endireita as trajetórias dos fluxos de probabilidade, refina o acoplamento entre ruídos e imagens e facilita o processo de destilação com modelos estudantis. Propomos um novo pipeline condicionado por texto para transformar o Stable Diffusion (SD) em um modelo ultrarrápido de uma única etapa, no qual descobrimos que o reflow desempenha um papel crítico na melhoria da atribuição entre ruído e imagens. Aproveitando nosso novo pipeline, criamos, até onde sabemos, o primeiro gerador de imagens a partir de texto baseado em difusão de uma única etapa com qualidade de imagem no nível do SD, alcançando um FID (Frechet Inception Distance) de 23,3 no MS COCO 2017-5k, superando a técnica anterior de estado da arte, destilação progressiva, por uma margem significativa (37,2 → 23,3 em FID). Ao utilizar uma rede expandida com 1,7 bilhão de parâmetros, melhoramos ainda mais o FID para 22,4. Chamamos nossos modelos de uma única etapa de InstaFlow. No MS COCO 2014-30k, o InstaFlow produz um FID de 13,1 em apenas 0,09 segundo, o melhor no regime ≤ 0,1 segundo, superando o recente StyleGAN-T (13,9 em 0,1 segundo). Notavelmente, o treinamento do InstaFlow custa apenas 199 dias de GPU A100. Página do projeto: https://github.com/gnobitab/InstaFlow.
English
Diffusion models have revolutionized text-to-image generation with its exceptional quality and creativity. However, its multi-step sampling process is known to be slow, often requiring tens of inference steps to obtain satisfactory results. Previous attempts to improve its sampling speed and reduce computational costs through distillation have been unsuccessful in achieving a functional one-step model. In this paper, we explore a recent method called Rectified Flow, which, thus far, has only been applied to small datasets. The core of Rectified Flow lies in its reflow procedure, which straightens the trajectories of probability flows, refines the coupling between noises and images, and facilitates the distillation process with student models. We propose a novel text-conditioned pipeline to turn Stable Diffusion (SD) into an ultra-fast one-step model, in which we find reflow plays a critical role in improving the assignment between noise and images. Leveraging our new pipeline, we create, to the best of our knowledge, the first one-step diffusion-based text-to-image generator with SD-level image quality, achieving an FID (Frechet Inception Distance) of 23.3 on MS COCO 2017-5k, surpassing the previous state-of-the-art technique, progressive distillation, by a significant margin (37.2 rightarrow 23.3 in FID). By utilizing an expanded network with 1.7B parameters, we further improve the FID to 22.4. We call our one-step models InstaFlow. On MS COCO 2014-30k, InstaFlow yields an FID of 13.1 in just 0.09 second, the best in leq 0.1 second regime, outperforming the recent StyleGAN-T (13.9 in 0.1 second). Notably, the training of InstaFlow only costs 199 A100 GPU days. Project page:~https://github.com/gnobitab/InstaFlow.
PDF321December 15, 2024