LCM-LoRA: 범용 스테이블 디퓨전 가속 모듈
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
November 9, 2023
저자: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao
cs.AI
초록
잠재 일관성 모델(Latent Consistency Models, LCMs)은 텍스트-이미지 생성 작업의 가속화에서 인상적인 성능을 달성하며, 최소한의 추론 단계로도 고품질의 이미지를 생성합니다. LCMs는 사전 훈련된 잠재 확산 모델(Latent Diffusion Models, LDMs)로부터 증류되어 약 32시간의 A100 GPU 훈련 시간만 필요로 합니다. 이 보고서는 LCMs의 잠재력을 두 가지 측면에서 더욱 확장합니다: 첫째, LoRA 증류를 Stable-Diffusion 모델(SD-V1.5, SSD-1B, SDXL 포함)에 적용함으로써, LCM의 범위를 더 큰 모델로 확장하면서도 메모리 소비를 크게 줄이고 우수한 이미지 생성 품질을 달성했습니다. 둘째, LCM 증류를 통해 얻은 LoRA 매개변수를 범용 Stable-Diffusion 가속 모듈로 식별하고, 이를 LCM-LoRA로 명명했습니다. LCM-LoRA는 훈련 없이도 다양한 Stable-Diffusion 미세 조정 모델이나 LoRAs에 직접 연결할 수 있어, 다양한 이미지 생성 작업에 보편적으로 적용 가능한 가속기로 기능합니다. DDIM, DPM-Solver와 같은 기존의 수치적 PF-ODE 솔버와 비교할 때, LCM-LoRA는 강력한 일반화 능력을 가진 플러그인 신경망 PF-ODE 솔버로 볼 수 있습니다. 프로젝트 페이지: https://github.com/luosiallen/latent-consistency-model.
English
Latent Consistency Models (LCMs) have achieved impressive performance in
accelerating text-to-image generative tasks, producing high-quality images with
minimal inference steps. LCMs are distilled from pre-trained latent diffusion
models (LDMs), requiring only ~32 A100 GPU training hours. This report further
extends LCMs' potential in two aspects: First, by applying LoRA distillation to
Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded
LCM's scope to larger models with significantly less memory consumption,
achieving superior image generation quality. Second, we identify the LoRA
parameters obtained through LCM distillation as a universal Stable-Diffusion
acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into
various Stable-Diffusion fine-tuned models or LoRAs without training, thus
representing a universally applicable accelerator for diverse image generation
tasks. Compared with previous numerical PF-ODE solvers such as DDIM,
DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that
possesses strong generalization abilities. Project page:
https://github.com/luosiallen/latent-consistency-model.