ChatPaper.aiChatPaper

EdgeFusion: Generación de Imágenes a partir de Texto en el Dispositivo

EdgeFusion: On-Device Text-to-Image Generation

April 18, 2024
Autores: Thibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim
cs.AI

Resumen

La intensa carga computacional de Stable Diffusion (SD) para la generación de imágenes a partir de texto representa un obstáculo significativo para su aplicación práctica. Para abordar este desafío, investigaciones recientes se centran en métodos para reducir los pasos de muestreo, como el Modelo de Consistencia Latente (LCM, por sus siglas en inglés), y en la implementación de optimizaciones arquitectónicas, incluyendo la poda y la destilación de conocimiento. A diferencia de los enfoques existentes, partimos de manera única de una variante compacta de SD, BK-SDM. Observamos que aplicar directamente LCM a BK-SDM con conjuntos de datos rastreados comúnmente utilizados produce resultados insatisfactorios. Esto nos lleva a desarrollar dos estrategias: (1) aprovechar pares de imágenes-texto de alta calidad provenientes de modelos generativos líderes y (2) diseñar un proceso avanzado de destilación adaptado específicamente para LCM. A través de una exploración exhaustiva de la cuantización, el perfilado y la implementación en dispositivos, logramos la generación rápida de imágenes fotorrealistas y alineadas con el texto en tan solo dos pasos, con una latencia inferior a un segundo en dispositivos de borde con recursos limitados.
English
The intensive computational burden of Stable Diffusion (SD) for text-to-image generation poses a significant hurdle for its practical application. To tackle this challenge, recent research focuses on methods to reduce sampling steps, such as Latent Consistency Model (LCM), and on employing architectural optimizations, including pruning and knowledge distillation. Diverging from existing approaches, we uniquely start with a compact SD variant, BK-SDM. We observe that directly applying LCM to BK-SDM with commonly used crawled datasets yields unsatisfactory results. It leads us to develop two strategies: (1) leveraging high-quality image-text pairs from leading generative models and (2) designing an advanced distillation process tailored for LCM. Through our thorough exploration of quantization, profiling, and on-device deployment, we achieve rapid generation of photo-realistic, text-aligned images in just two steps, with latency under one second on resource-limited edge devices.

Summary

AI-Generated Summary

PDF231December 15, 2024