EdgeFusion: Tekst-naar-beeldgeneratie op het apparaat

Samenvatting

De intensieve rekenlast van Stable Diffusion (SD) voor tekst-naar-beeldgeneratie vormt een aanzienlijke hindernis voor de praktische toepassing ervan. Om deze uitdaging aan te pakken, richt recent onderzoek zich op methoden om het aantal samplingstappen te verminderen, zoals het Latent Consistency Model (LCM), en op het toepassen van architectuuroptimalisaties, waaronder pruning en kennisdistillatie. Afwijkend van bestaande benaderingen, beginnen wij uniek met een compacte SD-variant, BK-SDM. Wij observeren dat het direct toepassen van LCM op BK-SDM met veelgebruikte gecrawlde datasets onbevredigende resultaten oplevert. Dit leidt ons tot het ontwikkelen van twee strategieën: (1) het benutten van hoogwaardige beeld-tekstparen van toonaangevende generatieve modellen en (2) het ontwerpen van een geavanceerd distillatieproces dat is afgestemd op LCM. Door onze grondige verkenning van kwantisatie, profilering en on-device-implementatie, bereiken we een snelle generatie van fotorealistische, tekstuitgelijnde beelden in slechts twee stappen, met een latentie van minder dan één seconde op resourcebeperkte edge-apparaten.

English

The intensive computational burden of Stable Diffusion (SD) for text-to-image generation poses a significant hurdle for its practical application. To tackle this challenge, recent research focuses on methods to reduce sampling steps, such as Latent Consistency Model (LCM), and on employing architectural optimizations, including pruning and knowledge distillation. Diverging from existing approaches, we uniquely start with a compact SD variant, BK-SDM. We observe that directly applying LCM to BK-SDM with commonly used crawled datasets yields unsatisfactory results. It leads us to develop two strategies: (1) leveraging high-quality image-text pairs from leading generative models and (2) designing an advanced distillation process tailored for LCM. Through our thorough exploration of quantization, profiling, and on-device deployment, we achieve rapid generation of photo-realistic, text-aligned images in just two steps, with latency under one second on resource-limited edge devices.

EdgeFusion: Tekst-naar-beeldgeneratie op het apparaat

EdgeFusion: On-Device Text-to-Image Generation

Samenvatting

Support