ChatPaper.aiChatPaper

EdgeFusion: Генерация изображений по тексту на устройстве

EdgeFusion: On-Device Text-to-Image Generation

April 18, 2024
Авторы: Thibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim
cs.AI

Аннотация

Интенсивная вычислительная нагрузка стабильного диффузионного метода (Stable Diffusion, SD) для генерации текста в изображение представляет собой значительное препятствие для его практического применения. Для преодоления этого вызова недавние исследования сосредотачиваются на методах сокращения шагов выборки, таких как модель латентной согласованности (Latent Consistency Model, LCM), и на использовании архитектурных оптимизаций, включая обрезку и дистилляцию знаний. Отклоняясь от существующих подходов, мы уникально начинаем с компактной варианта SD, BK-SDM. Мы замечаем, что прямое применение LCM к BK-SDM с обычно используемыми наборами данных, полученными путем обхода, дает неудовлетворительные результаты. Это приводит нас к разработке двух стратегий: (1) использование высококачественных пар изображение-текст от ведущих генеративных моделей и (2) разработка продвинутого процесса дистилляции, нацеленного на LCM. Через наше тщательное исследование квантования, профилирования и развертывания на устройствах с ограниченными ресурсами, мы достигаем быстрой генерации фотореалистичных изображений, выровненных по тексту, всего за два шага, с задержкой менее одной секунды на устройствах краевых вычислений.
English
The intensive computational burden of Stable Diffusion (SD) for text-to-image generation poses a significant hurdle for its practical application. To tackle this challenge, recent research focuses on methods to reduce sampling steps, such as Latent Consistency Model (LCM), and on employing architectural optimizations, including pruning and knowledge distillation. Diverging from existing approaches, we uniquely start with a compact SD variant, BK-SDM. We observe that directly applying LCM to BK-SDM with commonly used crawled datasets yields unsatisfactory results. It leads us to develop two strategies: (1) leveraging high-quality image-text pairs from leading generative models and (2) designing an advanced distillation process tailored for LCM. Through our thorough exploration of quantization, profiling, and on-device deployment, we achieve rapid generation of photo-realistic, text-aligned images in just two steps, with latency under one second on resource-limited edge devices.
PDF231December 15, 2024