EdgeFusion: Generación de Imágenes a partir de Texto en el Dispositivo

Resumen

La intensa carga computacional de Stable Diffusion (SD) para la generación de imágenes a partir de texto representa un obstáculo significativo para su aplicación práctica. Para abordar este desafío, investigaciones recientes se centran en métodos para reducir los pasos de muestreo, como el Modelo de Consistencia Latente (LCM, por sus siglas en inglés), y en la implementación de optimizaciones arquitectónicas, incluyendo la poda y la destilación de conocimiento. A diferencia de los enfoques existentes, partimos de manera única de una variante compacta de SD, BK-SDM. Observamos que aplicar directamente LCM a BK-SDM con conjuntos de datos rastreados comúnmente utilizados produce resultados insatisfactorios. Esto nos lleva a desarrollar dos estrategias: (1) aprovechar pares de imágenes-texto de alta calidad provenientes de modelos generativos líderes y (2) diseñar un proceso avanzado de destilación adaptado específicamente para LCM. A través de una exploración exhaustiva de la cuantización, el perfilado y la implementación en dispositivos, logramos la generación rápida de imágenes fotorrealistas y alineadas con el texto en tan solo dos pasos, con una latencia inferior a un segundo en dispositivos de borde con recursos limitados.

English

The intensive computational burden of Stable Diffusion (SD) for text-to-image generation poses a significant hurdle for its practical application. To tackle this challenge, recent research focuses on methods to reduce sampling steps, such as Latent Consistency Model (LCM), and on employing architectural optimizations, including pruning and knowledge distillation. Diverging from existing approaches, we uniquely start with a compact SD variant, BK-SDM. We observe that directly applying LCM to BK-SDM with commonly used crawled datasets yields unsatisfactory results. It leads us to develop two strategies: (1) leveraging high-quality image-text pairs from leading generative models and (2) designing an advanced distillation process tailored for LCM. Through our thorough exploration of quantization, profiling, and on-device deployment, we achieve rapid generation of photo-realistic, text-aligned images in just two steps, with latency under one second on resource-limited edge devices.

EdgeFusion: Generación de Imágenes a partir de Texto en el Dispositivo

EdgeFusion: On-Device Text-to-Image Generation

Resumen

Support