SDXS: 이미지 조건을 활용한 실시간 단일 단계 잠재 확산 모델
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions
March 25, 2024
저자: Yuda Song, Zehao Sun, Xuanwu Yin
cs.AI
초록
최근 디퓨전 모델의 발전으로 인해 이들은 이미지 생성 분야의 최전선에 위치하게 되었습니다. 그러나 뛰어난 성능에도 불구하고, 디퓨전 모델은 복잡한 아키텍처와 상당한 계산 요구량으로 인해 반복적인 샘플링 과정에서 발생하는 상당한 지연 시간이라는 단점을 가지고 있습니다. 이러한 한계를 완화하기 위해, 우리는 모델 지연 시간을 크게 줄이기 위한 모델 소형화와 샘플링 단계 감소라는 이중 접근 방식을 도입했습니다. 우리의 방법론은 지식 증류를 활용하여 U-Net 및 이미지 디코더 아키텍처를 간소화하고, 특징 매칭과 스코어 증류를 활용한 혁신적인 원스텝 DM 훈련 기법을 소개합니다. 우리는 단일 GPU에서 각각 약 100 FPS(SD v1.5 대비 30배 빠름)와 30 FPS(SDXL 대비 60배 빠름)의 추론 속도를 달성한 SDXS-512와 SDXS-1024 두 가지 모델을 제시합니다. 또한, 우리의 훈련 접근 방식은 이미지-이미지 변환을 효율적으로 가능하게 하는 이미지 조건 제어 분야에서 유망한 응용 가능성을 제공합니다.
English
Recent advancements in diffusion models have positioned them at the forefront
of image generation. Despite their superior performance, diffusion models are
not without drawbacks; they are characterized by complex architectures and
substantial computational demands, resulting in significant latency due to
their iterative sampling process. To mitigate these limitations, we introduce a
dual approach involving model miniaturization and a reduction in sampling
steps, aimed at significantly decreasing model latency. Our methodology
leverages knowledge distillation to streamline the U-Net and image decoder
architectures, and introduces an innovative one-step DM training technique that
utilizes feature matching and score distillation. We present two models,
SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS
(30x faster than SD v1.5) and 30 FP (60x faster than SDXL) on a single GPU,
respectively. Moreover, our training approach offers promising applications in
image-conditioned control, facilitating efficient image-to-image translation.Summary
AI-Generated Summary