SnapFusion: Modelo de Difusão Texto-para-Imagem em Dispositivos Móveis em Menos de Dois Segundos
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds
June 1, 2023
Autores: Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Resumo
Modelos de difusão texto-imagem podem criar imagens impressionantes a partir de descrições em linguagem natural que rivalizam com o trabalho de artistas e fotógrafos profissionais. No entanto, esses modelos são grandes, com arquiteturas de rede complexas e dezenas de iterações de remoção de ruído, tornando-os computacionalmente caros e lentos para executar. Como resultado, GPUs de alto desempenho e inferência baseada em nuvem são necessários para executar modelos de difusão em escala. Isso é custoso e tem implicações de privacidade, especialmente quando os dados do usuário são enviados para terceiros. Para superar esses desafios, apresentamos uma abordagem genérica que, pela primeira vez, permite a execução de modelos de difusão texto-imagem em dispositivos móveis em menos de 2 segundos. Conseguimos isso introduzindo uma arquitetura de rede eficiente e melhorando a destilação de passos. Especificamente, propomos uma UNet eficiente ao identificar a redundância do modelo original e reduzir a computação do decodificador de imagem por meio de destilação de dados. Além disso, aprimoramos a destilação de passos explorando estratégias de treinamento e introduzindo regularização a partir da orientação livre de classificador. Nossos extensos experimentos no MS-COCO mostram que nosso modelo com 8 passos de remoção de ruído alcança melhores pontuações FID e CLIP do que o Stable Diffusion v1.5 com 50 passos. Nosso trabalho democratiza a criação de conteúdo ao levar poderosos modelos de difusão texto-imagem para as mãos dos usuários.
English
Text-to-image diffusion models can create stunning images from natural
language descriptions that rival the work of professional artists and
photographers. However, these models are large, with complex network
architectures and tens of denoising iterations, making them computationally
expensive and slow to run. As a result, high-end GPUs and cloud-based inference
are required to run diffusion models at scale. This is costly and has privacy
implications, especially when user data is sent to a third party. To overcome
these challenges, we present a generic approach that, for the first time,
unlocks running text-to-image diffusion models on mobile devices in less than
2 seconds. We achieve so by introducing efficient network architecture and
improving step distillation. Specifically, we propose an efficient UNet by
identifying the redundancy of the original model and reducing the computation
of the image decoder via data distillation. Further, we enhance the step
distillation by exploring training strategies and introducing regularization
from classifier-free guidance. Our extensive experiments on MS-COCO show that
our model with 8 denoising steps achieves better FID and CLIP scores than
Stable Diffusion v1.5 with 50 steps. Our work democratizes content creation
by bringing powerful text-to-image diffusion models to the hands of users.