EdgeFusion: 온디바이스 텍스트-이미지 생성
EdgeFusion: On-Device Text-to-Image Generation
April 18, 2024
저자: Thibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim
cs.AI
초록
텍스트-이미지 생성을 위한 Stable Diffusion(SD)의 높은 계산 부담은 실제 응용에 있어 상당한 장벽으로 작용합니다. 이러한 문제를 해결하기 위해 최근 연구는 Latent Consistency Model(LCM)과 같은 샘플링 단계 감소 방법과, 프루닝 및 지식 증류를 포함한 아키텍처 최적화에 초점을 맞추고 있습니다. 기존 접근법과는 달리, 우리는 컴팩트한 SD 변형인 BK-SDM을 출발점으로 삼았습니다. 일반적으로 사용되는 크롤링 데이터셋에 LCM을 BK-SDM에 직접 적용했을 때 만족스럽지 못한 결과를 얻었음을 관찰했습니다. 이는 우리가 두 가지 전략을 개발하게 했습니다: (1) 선도적인 생성 모델에서 얻은 고품질 이미지-텍스트 쌍을 활용하는 것과 (2) LCM에 맞춤화된 고급 증류 프로세스를 설계하는 것입니다. 양자화, 프로파일링 및 온디바이스 배포에 대한 철저한 탐구를 통해, 우리는 리소스가 제한된 엣지 디바이스에서도 1초 미만의 지연 시간으로 두 단계만에 사진처럼 사실적이고 텍스트에 부합하는 이미지를 빠르게 생성하는 데 성공했습니다.
English
The intensive computational burden of Stable Diffusion (SD) for text-to-image
generation poses a significant hurdle for its practical application. To tackle
this challenge, recent research focuses on methods to reduce sampling steps,
such as Latent Consistency Model (LCM), and on employing architectural
optimizations, including pruning and knowledge distillation. Diverging from
existing approaches, we uniquely start with a compact SD variant, BK-SDM. We
observe that directly applying LCM to BK-SDM with commonly used crawled
datasets yields unsatisfactory results. It leads us to develop two strategies:
(1) leveraging high-quality image-text pairs from leading generative models and
(2) designing an advanced distillation process tailored for LCM. Through our
thorough exploration of quantization, profiling, and on-device deployment, we
achieve rapid generation of photo-realistic, text-aligned images in just two
steps, with latency under one second on resource-limited edge devices.Summary
AI-Generated Summary