EdgeFusion: オンデバイステキスト画像生成
EdgeFusion: On-Device Text-to-Image Generation
April 18, 2024
著者: Thibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim
cs.AI
要旨
テキストから画像を生成するためのStable Diffusion(SD)の集中的な計算負荷は、その実用的な応用において大きな障壁となっている。この課題に対処するため、最近の研究では、Latent Consistency Model(LCM)のようなサンプリングステップを削減する手法や、プルーニングや知識蒸留を含むアーキテクチャ最適化に焦点が当てられている。既存のアプローチとは異なり、我々はコンパクトなSDバリアントであるBK-SDMを出発点として独自に取り組む。一般的に使用されるクロールデータセットを用いてLCMをBK-SDMに直接適用すると、満足のいく結果が得られないことを観察した。これにより、我々は二つの戦略を開発した:(1)主要な生成モデルから得られる高品質な画像-テキストペアを活用すること、(2)LCMに特化した高度な蒸留プロセスを設計することである。量子化、プロファイリング、およびオンデバイス展開の徹底的な探求を通じて、リソースが限られたエッジデバイス上で、わずか2ステップでフォトリアルなテキスト整合画像を1秒未満の遅延で迅速に生成することに成功した。
English
The intensive computational burden of Stable Diffusion (SD) for text-to-image
generation poses a significant hurdle for its practical application. To tackle
this challenge, recent research focuses on methods to reduce sampling steps,
such as Latent Consistency Model (LCM), and on employing architectural
optimizations, including pruning and knowledge distillation. Diverging from
existing approaches, we uniquely start with a compact SD variant, BK-SDM. We
observe that directly applying LCM to BK-SDM with commonly used crawled
datasets yields unsatisfactory results. It leads us to develop two strategies:
(1) leveraging high-quality image-text pairs from leading generative models and
(2) designing an advanced distillation process tailored for LCM. Through our
thorough exploration of quantization, profiling, and on-device deployment, we
achieve rapid generation of photo-realistic, text-aligned images in just two
steps, with latency under one second on resource-limited edge devices.Summary
AI-Generated Summary