ChatPaper.aiChatPaper

SnapFusion : Modèle de diffusion texte-image sur appareils mobiles en moins de deux secondes

SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds

June 1, 2023
Auteurs: Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI

Résumé

Les modèles de diffusion texte-image peuvent générer des images impressionnantes à partir de descriptions en langage naturel, rivalisant avec le travail d'artistes et de photographes professionnels. Cependant, ces modèles sont volumineux, avec des architectures de réseau complexes et des dizaines d'itérations de débruitage, ce qui les rend coûteux en calcul et lents à exécuter. Par conséquent, des GPU haut de gamme et une inférence basée sur le cloud sont nécessaires pour exécuter ces modèles de diffusion à grande échelle. Cela est coûteux et soulève des problèmes de confidentialité, en particulier lorsque les données des utilisateurs sont envoyées à un tiers. Pour surmonter ces défis, nous présentons une approche générique qui, pour la première fois, permet d'exécuter des modèles de diffusion texte-image sur des appareils mobiles en moins de 2 secondes. Nous y parvenons en introduisant une architecture de réseau efficace et en améliorant la distillation des étapes. Plus précisément, nous proposons un UNet efficace en identifiant la redondance du modèle original et en réduisant le calcul du décodeur d'images via la distillation de données. De plus, nous améliorons la distillation des étapes en explorant des stratégies d'entraînement et en introduisant une régularisation issue de la guidance sans classifieur. Nos expériences approfondies sur MS-COCO montrent que notre modèle avec 8 étapes de débruitage obtient de meilleurs scores FID et CLIP que Stable Diffusion v1.5 avec 50 étapes. Notre travail démocratise la création de contenu en mettant des modèles de diffusion texte-image puissants entre les mains des utilisateurs.
English
Text-to-image diffusion models can create stunning images from natural language descriptions that rival the work of professional artists and photographers. However, these models are large, with complex network architectures and tens of denoising iterations, making them computationally expensive and slow to run. As a result, high-end GPUs and cloud-based inference are required to run diffusion models at scale. This is costly and has privacy implications, especially when user data is sent to a third party. To overcome these challenges, we present a generic approach that, for the first time, unlocks running text-to-image diffusion models on mobile devices in less than 2 seconds. We achieve so by introducing efficient network architecture and improving step distillation. Specifically, we propose an efficient UNet by identifying the redundancy of the original model and reducing the computation of the image decoder via data distillation. Further, we enhance the step distillation by exploring training strategies and introducing regularization from classifier-free guidance. Our extensive experiments on MS-COCO show that our model with 8 denoising steps achieves better FID and CLIP scores than Stable Diffusion v1.5 with 50 steps. Our work democratizes content creation by bringing powerful text-to-image diffusion models to the hands of users.
PDF1513December 15, 2024