ChatPaper.aiChatPaper

SnapFusion: Text-zu-Bild-Diffusionsmodell auf Mobilgeräten in weniger als zwei Sekunden

SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds

June 1, 2023
Autoren: Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI

Zusammenfassung

Text-to-Image-Diffusionsmodelle können beeindruckende Bilder aus natürlichen Sprachbeschreibungen erzeugen, die mit den Werken professioneller Künstler und Fotografen konkurrieren. Diese Modelle sind jedoch groß, mit komplexen Netzwerkarchitekturen und Dutzenden von Entrauschungsiterationen, was sie rechenintensiv und langsam in der Ausführung macht. Infolgedessen sind High-End-GPUs und cloudbasierte Inferenz erforderlich, um Diffusionsmodelle in großem Maßstab zu betreiben. Dies ist kostspielig und hat Datenschutzimplikationen, insbesondere wenn Benutzerdaten an Dritte gesendet werden. Um diese Herausforderungen zu bewältigen, präsentieren wir einen generischen Ansatz, der erstmals die Ausführung von Text-to-Image-Diffusionsmodellen auf Mobilgeräten in weniger als 2 Sekunden ermöglicht. Dies erreichen wir durch die Einführung einer effizienten Netzwerkarchitektur und die Verbesserung der Schrittdestillation. Konkret schlagen wir ein effizientes UNet vor, indem wir die Redundanz des ursprünglichen Modells identifizieren und die Berechnung des Bilddecoders durch Datendestillation reduzieren. Darüber hinaus verbessern wir die Schrittdestillation durch die Erforschung von Trainingsstrategien und die Einführung von Regularisierung durch Classifier-Free Guidance. Unsere umfangreichen Experimente auf MS-COCO zeigen, dass unser Modell mit 8 Entrauschungsschritten bessere FID- und CLIP-Werte erzielt als Stable Diffusion v1.5 mit 50 Schritten. Unsere Arbeit demokratisiert die Inhaltserstellung, indem sie leistungsstarke Text-to-Image-Diffusionsmodelle in die Hände der Nutzer bringt.
English
Text-to-image diffusion models can create stunning images from natural language descriptions that rival the work of professional artists and photographers. However, these models are large, with complex network architectures and tens of denoising iterations, making them computationally expensive and slow to run. As a result, high-end GPUs and cloud-based inference are required to run diffusion models at scale. This is costly and has privacy implications, especially when user data is sent to a third party. To overcome these challenges, we present a generic approach that, for the first time, unlocks running text-to-image diffusion models on mobile devices in less than 2 seconds. We achieve so by introducing efficient network architecture and improving step distillation. Specifically, we propose an efficient UNet by identifying the redundancy of the original model and reducing the computation of the image decoder via data distillation. Further, we enhance the step distillation by exploring training strategies and introducing regularization from classifier-free guidance. Our extensive experiments on MS-COCO show that our model with 8 denoising steps achieves better FID and CLIP scores than Stable Diffusion v1.5 with 50 steps. Our work democratizes content creation by bringing powerful text-to-image diffusion models to the hands of users.
PDF1513December 15, 2024