SnapFusion: Modelo de Difusión de Texto a Imagen en Dispositivos Móviles en Menos de Dos Segundos
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds
June 1, 2023
Autores: Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Resumen
Los modelos de difusión de texto a imagen pueden crear imágenes impresionantes a partir de descripciones en lenguaje natural que rivalizan con el trabajo de artistas y fotógrafos profesionales. Sin embargo, estos modelos son grandes, con arquitecturas de red complejas y decenas de iteraciones de eliminación de ruido, lo que los hace computacionalmente costosos y lentos de ejecutar. Como resultado, se requieren GPUs de alta gama e inferencia basada en la nube para ejecutar modelos de difusión a escala. Esto es costoso y tiene implicaciones de privacidad, especialmente cuando los datos del usuario se envían a un tercero. Para superar estos desafíos, presentamos un enfoque genérico que, por primera vez, permite ejecutar modelos de difusión de texto a imagen en dispositivos móviles en menos de 2 segundos. Lo logramos introduciendo una arquitectura de red eficiente y mejorando la destilación de pasos. Específicamente, proponemos una UNet eficiente al identificar la redundancia del modelo original y reducir el cálculo del decodificador de imágenes mediante destilación de datos. Además, mejoramos la destilación de pasos explorando estrategias de entrenamiento e introduciendo regularización a partir de la guía libre de clasificadores. Nuestros extensos experimentos en MS-COCO muestran que nuestro modelo con 8 pasos de eliminación de ruido logra mejores puntuaciones FID y CLIP que Stable Diffusion v1.5 con 50 pasos. Nuestro trabajo democratiza la creación de contenido al llevar potentes modelos de difusión de texto a imagen a las manos de los usuarios.
English
Text-to-image diffusion models can create stunning images from natural
language descriptions that rival the work of professional artists and
photographers. However, these models are large, with complex network
architectures and tens of denoising iterations, making them computationally
expensive and slow to run. As a result, high-end GPUs and cloud-based inference
are required to run diffusion models at scale. This is costly and has privacy
implications, especially when user data is sent to a third party. To overcome
these challenges, we present a generic approach that, for the first time,
unlocks running text-to-image diffusion models on mobile devices in less than
2 seconds. We achieve so by introducing efficient network architecture and
improving step distillation. Specifically, we propose an efficient UNet by
identifying the redundancy of the original model and reducing the computation
of the image decoder via data distillation. Further, we enhance the step
distillation by exploring training strategies and introducing regularization
from classifier-free guidance. Our extensive experiments on MS-COCO show that
our model with 8 denoising steps achieves better FID and CLIP scores than
Stable Diffusion v1.5 with 50 steps. Our work democratizes content creation
by bringing powerful text-to-image diffusion models to the hands of users.