ChatPaper.aiChatPaper

EdgeFusion : Génération d'images à partir de texte sur appareil

EdgeFusion: On-Device Text-to-Image Generation

April 18, 2024
Auteurs: Thibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim
cs.AI

Résumé

La charge de calcul intensive de Stable Diffusion (SD) pour la génération d'images à partir de texte constitue un obstacle majeur à son application pratique. Pour relever ce défi, les recherches récentes se concentrent sur des méthodes visant à réduire les étapes d'échantillonnage, telles que le modèle de cohérence latente (LCM), ainsi que sur l'optimisation architecturale, incluant l'élagage et la distillation de connaissances. S'écartant des approches existantes, nous partons d'une variante compacte de SD, BK-SDM. Nous observons que l'application directe de LCM à BK-SDM avec des ensembles de données couramment utilisés donne des résultats insatisfaisants. Cela nous conduit à développer deux stratégies : (1) exploiter des paires image-texte de haute qualité provenant de modèles génératifs de pointe et (2) concevoir un processus de distillation avancé adapté à LCM. Grâce à notre exploration approfondie de la quantification, du profilage et du déploiement sur appareil, nous parvenons à générer rapidement des images photo-réalistes et alignées sur le texte en seulement deux étapes, avec une latence inférieure à une seconde sur des appareils périphériques aux ressources limitées.
English
The intensive computational burden of Stable Diffusion (SD) for text-to-image generation poses a significant hurdle for its practical application. To tackle this challenge, recent research focuses on methods to reduce sampling steps, such as Latent Consistency Model (LCM), and on employing architectural optimizations, including pruning and knowledge distillation. Diverging from existing approaches, we uniquely start with a compact SD variant, BK-SDM. We observe that directly applying LCM to BK-SDM with commonly used crawled datasets yields unsatisfactory results. It leads us to develop two strategies: (1) leveraging high-quality image-text pairs from leading generative models and (2) designing an advanced distillation process tailored for LCM. Through our thorough exploration of quantization, profiling, and on-device deployment, we achieve rapid generation of photo-realistic, text-aligned images in just two steps, with latency under one second on resource-limited edge devices.

Summary

AI-Generated Summary

PDF231December 15, 2024