EdgeFusion: Generación de Imágenes a partir de Texto en el Dispositivo
EdgeFusion: On-Device Text-to-Image Generation
April 18, 2024
Autores: Thibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim
cs.AI
Resumen
La intensa carga computacional de Stable Diffusion (SD) para la generación de imágenes a partir de texto representa un obstáculo significativo para su aplicación práctica. Para abordar este desafío, investigaciones recientes se centran en métodos para reducir los pasos de muestreo, como el Modelo de Consistencia Latente (LCM, por sus siglas en inglés), y en la implementación de optimizaciones arquitectónicas, incluyendo la poda y la destilación de conocimiento. A diferencia de los enfoques existentes, partimos de manera única de una variante compacta de SD, BK-SDM. Observamos que aplicar directamente LCM a BK-SDM con conjuntos de datos rastreados comúnmente utilizados produce resultados insatisfactorios. Esto nos lleva a desarrollar dos estrategias: (1) aprovechar pares de imágenes-texto de alta calidad provenientes de modelos generativos líderes y (2) diseñar un proceso avanzado de destilación adaptado específicamente para LCM. A través de una exploración exhaustiva de la cuantización, el perfilado y la implementación en dispositivos, logramos la generación rápida de imágenes fotorrealistas y alineadas con el texto en tan solo dos pasos, con una latencia inferior a un segundo en dispositivos de borde con recursos limitados.
English
The intensive computational burden of Stable Diffusion (SD) for text-to-image
generation poses a significant hurdle for its practical application. To tackle
this challenge, recent research focuses on methods to reduce sampling steps,
such as Latent Consistency Model (LCM), and on employing architectural
optimizations, including pruning and knowledge distillation. Diverging from
existing approaches, we uniquely start with a compact SD variant, BK-SDM. We
observe that directly applying LCM to BK-SDM with commonly used crawled
datasets yields unsatisfactory results. It leads us to develop two strategies:
(1) leveraging high-quality image-text pairs from leading generative models and
(2) designing an advanced distillation process tailored for LCM. Through our
thorough exploration of quantization, profiling, and on-device deployment, we
achieve rapid generation of photo-realistic, text-aligned images in just two
steps, with latency under one second on resource-limited edge devices.Summary
AI-Generated Summary