EdgeFusion: Generierung von Text zu Bild auf dem Gerät
EdgeFusion: On-Device Text-to-Image Generation
April 18, 2024
Autoren: Thibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim
cs.AI
Zusammenfassung
Die intensive Rechenlast der Stable Diffusion (SD) für die Text-zu-Bild-Erzeugung stellt eine bedeutende Hürde für ihre praktische Anwendung dar. Um diese Herausforderung anzugehen, konzentriert sich die jüngste Forschung auf Methoden zur Reduzierung der Abtastschritte, wie dem Latent Consistency Model (LCM), und auf die Verwendung architektonischer Optimierungen, einschließlich Pruning und Wissensvermittlung. Abweichend von bestehenden Ansätzen beginnen wir einzigartigerweise mit einer kompakten SD-Variante, BK-SDM. Wir stellen fest, dass die direkte Anwendung von LCM auf BK-SDM mit gängigen gecrawlten Datensätzen unbefriedigende Ergebnisse liefert. Dies führt uns zur Entwicklung von zwei Strategien: (1) Nutzung hochwertiger Bild-Text-Paare von führenden generativen Modellen und (2) Entwicklung eines fortschrittlichen Destillationsprozesses, der speziell für LCM zugeschnitten ist. Durch unsere gründliche Erkundung von Quantisierung, Profilierung und On-Device-Bereitstellung erreichen wir eine schnelle Erzeugung fotorealistischer, textausgerichteter Bilder in nur zwei Schritten, mit Latenzzeiten von unter einer Sekunde auf ressourcenbeschränkten Edge-Geräten.
English
The intensive computational burden of Stable Diffusion (SD) for text-to-image
generation poses a significant hurdle for its practical application. To tackle
this challenge, recent research focuses on methods to reduce sampling steps,
such as Latent Consistency Model (LCM), and on employing architectural
optimizations, including pruning and knowledge distillation. Diverging from
existing approaches, we uniquely start with a compact SD variant, BK-SDM. We
observe that directly applying LCM to BK-SDM with commonly used crawled
datasets yields unsatisfactory results. It leads us to develop two strategies:
(1) leveraging high-quality image-text pairs from leading generative models and
(2) designing an advanced distillation process tailored for LCM. Through our
thorough exploration of quantization, profiling, and on-device deployment, we
achieve rapid generation of photo-realistic, text-aligned images in just two
steps, with latency under one second on resource-limited edge devices.Summary
AI-Generated Summary