MLCM: 잠재 확산 모델의 다단계 일관성 증류
MLCM: Multistep Consistency Distillation of Latent Diffusion Model
June 9, 2024
저자: Qingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Shixiang Tang, Haonan Lu
cs.AI
초록
대형 잠재 확산 모델(LDMs)을 빠르게 샘플링이 가능한 모델로 증류하는 연구가 점점 더 많은 관심을 받고 있습니다. 그러나 기존의 대부분의 방법은 두 가지 딜레마에 직면해 있습니다: (i) 다양한 샘플링 예산에 대해 여러 개별 증류 모델에 의존하거나, (ii) 제한된(예: 2-4) 또는 중간 정도의(예: 5-8) 샘플링 단계에서 생성 품질을 희생해야 합니다. 이를 해결하기 위해, 우리는 최근의 다단계 일관성 증류(MCD) 전략을 대표적인 LDMs로 확장하여, 저비용 고품질 이미지 합성을 위한 다단계 잠재 일관성 모델(MLCMs) 접근법을 제안합니다. MLCM은 MCD의 약속 덕분에 다양한 샘플링 단계에 대해 통합된 모델로 작동합니다. 우리는 또한 MCD를 점진적 학습 전략으로 보강하여, 소수 단계 생성의 품질을 높이기 위해 세그먼트 간 일관성을 강화합니다. 우리는 교사 모델의 샘플링 궤적에서 상태를 추출하여 MLCMs의 학습 데이터로 사용함으로써, 고품질 학습 데이터셋에 대한 요구를 줄이고 증류 모델의 학습과 추론 간의 격차를 줄입니다. MLCM은 시각적 품질과 미적 매력을 더욱 개선하기 위한 선호 학습 전략과도 호환됩니다. 실험적으로, MLCM은 단 2-8개의 샘플링 단계로도 고품질의 만족스러운 이미지를 생성할 수 있습니다. MSCOCO-2017 5K 벤치마크에서, SDXL로부터 증류된 MLCM은 단 4단계로 CLIP 점수 33.30, 미적 점수 6.19, 이미지 보상 1.20을 기록하며, 4단계 LCM [23], 8단계 SDXL-Lightning [17], 그리고 8단계 HyperSD [33]를 크게 능가했습니다. 또한, 우리는 MLCMs의 제어 가능한 생성, 이미지 스타일 변환, 중국어-이미지 생성 등 다양한 응용 분야에서의 다용성을 입증합니다.
English
Distilling large latent diffusion models (LDMs) into ones that are fast to
sample from is attracting growing research interest. However, the majority of
existing methods face a dilemma where they either (i) depend on multiple
individual distilled models for different sampling budgets, or (ii) sacrifice
generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8)
sampling steps. To address these, we extend the recent multistep consistency
distillation (MCD) strategy to representative LDMs, establishing the Multistep
Latent Consistency Models (MLCMs) approach for low-cost high-quality image
synthesis. MLCM serves as a unified model for various sampling steps due to the
promise of MCD. We further augment MCD with a progressive training strategy to
strengthen inter-segment consistency to boost the quality of few-step
generations. We take the states from the sampling trajectories of the teacher
model as training data for MLCMs to lift the requirements for high-quality
training datasets and to bridge the gap between the training and inference of
the distilled model. MLCM is compatible with preference learning strategies for
further improvement of visual quality and aesthetic appeal. Empirically, MLCM
can generate high-quality, delightful images with only 2-8 sampling steps. On
the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of
33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps,
substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and
8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in
applications including controllable generation, image style transfer, and
Chinese-to-image generation.Summary
AI-Generated Summary