SnapFusion: Modello di diffusione da testo a immagine su dispositivi mobili in meno di due secondi
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds
June 1, 2023
Autori: Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Abstract
I modelli di diffusione text-to-image possono creare immagini straordinarie a partire da descrizioni in linguaggio naturale, rivaleggiando con il lavoro di artisti e fotografi professionisti. Tuttavia, questi modelli sono di grandi dimensioni, con architetture di rete complesse e decine di iterazioni di denoising, rendendoli computazionalmente costosi e lenti da eseguire. Di conseguenza, per eseguire i modelli di diffusione su larga scala sono necessarie GPU di fascia alta e inferenza basata su cloud. Questo è costoso e ha implicazioni sulla privacy, specialmente quando i dati degli utenti vengono inviati a terze parti. Per superare queste sfide, presentiamo un approccio generico che, per la prima volta, consente di eseguire modelli di diffusione text-to-image su dispositivi mobili in meno di 2 secondi. Raggiungiamo questo obiettivo introducendo un'architettura di rete efficiente e migliorando la distillazione dei passi. Nello specifico, proponiamo una UNet efficiente identificando la ridondanza del modello originale e riducendo il calcolo del decodificatore di immagini tramite distillazione dei dati. Inoltre, miglioriamo la distillazione dei passi esplorando strategie di addestramento e introducendo la regolarizzazione dalla guida senza classificatore. I nostri ampi esperimenti su MS-COCO dimostrano che il nostro modello con 8 passi di denoising ottiene punteggi FID e CLIP migliori rispetto a Stable Diffusion v1.5 con 50 passi. Il nostro lavoro democratizza la creazione di contenuti portando potenti modelli di diffusione text-to-image nelle mani degli utenti.
English
Text-to-image diffusion models can create stunning images from natural
language descriptions that rival the work of professional artists and
photographers. However, these models are large, with complex network
architectures and tens of denoising iterations, making them computationally
expensive and slow to run. As a result, high-end GPUs and cloud-based inference
are required to run diffusion models at scale. This is costly and has privacy
implications, especially when user data is sent to a third party. To overcome
these challenges, we present a generic approach that, for the first time,
unlocks running text-to-image diffusion models on mobile devices in less than
2 seconds. We achieve so by introducing efficient network architecture and
improving step distillation. Specifically, we propose an efficient UNet by
identifying the redundancy of the original model and reducing the computation
of the image decoder via data distillation. Further, we enhance the step
distillation by exploring training strategies and introducing regularization
from classifier-free guidance. Our extensive experiments on MS-COCO show that
our model with 8 denoising steps achieves better FID and CLIP scores than
Stable Diffusion v1.5 with 50 steps. Our work democratizes content creation
by bringing powerful text-to-image diffusion models to the hands of users.