SnapFusion: Text-naar-beeld diffusiemodel op mobiele apparaten binnen twee seconden
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds
June 1, 2023
Auteurs: Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Samenvatting
Text-to-image diffusiemodellen kunnen indrukwekkende afbeeldingen genereren op basis van natuurlijke taalomschrijvingen die wedijveren met het werk van professionele kunstenaars en fotografen. Deze modellen zijn echter groot, met complexe netwerkarchitecturen en tientallen denoiseringsiteraties, waardoor ze rekenintensief en traag zijn om uit te voeren. Als gevolg hiervan zijn high-end GPU's en cloudgebaseerde inferentie nodig om diffusiemodellen op schaal te draaien. Dit is kostbaar en heeft privacy-implicaties, vooral wanneer gebruikersgegevens naar een derde partij worden gestuurd. Om deze uitdagingen te overwinnen, presenteren we een generieke aanpak die voor het eerst het mogelijk maakt om text-to-image diffusiemodellen op mobiele apparaten uit te voeren in minder dan 2 seconden. We bereiken dit door een efficiënte netwerkarchitectuur te introduceren en stapdistillatie te verbeteren. Specifiek stellen we een efficiënte UNet voor door de redundantie van het oorspronkelijke model te identificeren en de berekening van de beelddecoder te verminderen via datadistillatie. Verder verbeteren we de stapdistillatie door trainingsstrategieën te verkennen en regularisatie te introduceren vanuit classifier-free guidance. Onze uitgebreide experimenten op MS-COCO laten zien dat ons model met 8 denoiseringsstappen betere FID- en CLIP-scores behaalt dan Stable Diffusion v1.5 met 50 stappen. Ons werk democratiseert contentcreatie door krachtige text-to-image diffusiemodellen binnen handbereik van gebruikers te brengen.
English
Text-to-image diffusion models can create stunning images from natural
language descriptions that rival the work of professional artists and
photographers. However, these models are large, with complex network
architectures and tens of denoising iterations, making them computationally
expensive and slow to run. As a result, high-end GPUs and cloud-based inference
are required to run diffusion models at scale. This is costly and has privacy
implications, especially when user data is sent to a third party. To overcome
these challenges, we present a generic approach that, for the first time,
unlocks running text-to-image diffusion models on mobile devices in less than
2 seconds. We achieve so by introducing efficient network architecture and
improving step distillation. Specifically, we propose an efficient UNet by
identifying the redundancy of the original model and reducing the computation
of the image decoder via data distillation. Further, we enhance the step
distillation by exploring training strategies and introducing regularization
from classifier-free guidance. Our extensive experiments on MS-COCO show that
our model with 8 denoising steps achieves better FID and CLIP scores than
Stable Diffusion v1.5 with 50 steps. Our work democratizes content creation
by bringing powerful text-to-image diffusion models to the hands of users.