EdgeFusion: Tekst-naar-beeldgeneratie op het apparaat
EdgeFusion: On-Device Text-to-Image Generation
April 18, 2024
Auteurs: Thibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim
cs.AI
Samenvatting
De intensieve rekenlast van Stable Diffusion (SD) voor tekst-naar-beeldgeneratie vormt een aanzienlijke hindernis voor de praktische toepassing ervan. Om deze uitdaging aan te pakken, richt recent onderzoek zich op methoden om het aantal samplingstappen te verminderen, zoals het Latent Consistency Model (LCM), en op het toepassen van architectuuroptimalisaties, waaronder pruning en kennisdistillatie. Afwijkend van bestaande benaderingen, beginnen wij uniek met een compacte SD-variant, BK-SDM. Wij observeren dat het direct toepassen van LCM op BK-SDM met veelgebruikte gecrawlde datasets onbevredigende resultaten oplevert. Dit leidt ons tot het ontwikkelen van twee strategieën: (1) het benutten van hoogwaardige beeld-tekstparen van toonaangevende generatieve modellen en (2) het ontwerpen van een geavanceerd distillatieproces dat is afgestemd op LCM. Door onze grondige verkenning van kwantisatie, profilering en on-device-implementatie, bereiken we een snelle generatie van fotorealistische, tekstuitgelijnde beelden in slechts twee stappen, met een latentie van minder dan één seconde op resourcebeperkte edge-apparaten.
English
The intensive computational burden of Stable Diffusion (SD) for text-to-image
generation poses a significant hurdle for its practical application. To tackle
this challenge, recent research focuses on methods to reduce sampling steps,
such as Latent Consistency Model (LCM), and on employing architectural
optimizations, including pruning and knowledge distillation. Diverging from
existing approaches, we uniquely start with a compact SD variant, BK-SDM. We
observe that directly applying LCM to BK-SDM with commonly used crawled
datasets yields unsatisfactory results. It leads us to develop two strategies:
(1) leveraging high-quality image-text pairs from leading generative models and
(2) designing an advanced distillation process tailored for LCM. Through our
thorough exploration of quantization, profiling, and on-device deployment, we
achieve rapid generation of photo-realistic, text-aligned images in just two
steps, with latency under one second on resource-limited edge devices.