LCM-LoRA: Универсальный модуль ускорения для Stable Diffusion
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
November 9, 2023
Авторы: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao
cs.AI
Аннотация
Модели латентной согласованности (LCM) продемонстрировали впечатляющие результаты в ускорении задач генерации изображений из текста, создавая высококачественные изображения с минимальным количеством шагов вывода. LCM обучаются на основе предварительно обученных моделей латентной диффузии (LDM), требуя всего около 32 часов обучения на GPU A100. В данном отчете потенциал LCM расширяется в двух направлениях: во-первых, путем применения дистилляции LoRA к моделям Stable-Diffusion, включая SD-V1.5, SSD-1B и SDXL, мы расширили область применения LCM на более крупные модели с существенно меньшим потреблением памяти, достигая превосходного качества генерации изображений. Во-вторых, мы определили параметры LoRA, полученные в процессе дистилляции LCM, как универсальный модуль ускорения для Stable-Diffusion, названный LCM-LoRA. LCM-LoRA может быть напрямую подключен к различным тонко настроенным моделям Stable-Diffusion или LoRA без дополнительного обучения, что делает его универсальным ускорителем для разнообразных задач генерации изображений. По сравнению с предыдущими численными решателями PF-ODE, такими как DDIM и DPM-Solver, LCM-LoRA можно рассматривать как подключаемый нейронный решатель PF-ODE, обладающий мощными способностями к обобщению. Страница проекта: https://github.com/luosiallen/latent-consistency-model.
English
Latent Consistency Models (LCMs) have achieved impressive performance in
accelerating text-to-image generative tasks, producing high-quality images with
minimal inference steps. LCMs are distilled from pre-trained latent diffusion
models (LDMs), requiring only ~32 A100 GPU training hours. This report further
extends LCMs' potential in two aspects: First, by applying LoRA distillation to
Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded
LCM's scope to larger models with significantly less memory consumption,
achieving superior image generation quality. Second, we identify the LoRA
parameters obtained through LCM distillation as a universal Stable-Diffusion
acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into
various Stable-Diffusion fine-tuned models or LoRAs without training, thus
representing a universally applicable accelerator for diverse image generation
tasks. Compared with previous numerical PF-ODE solvers such as DDIM,
DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that
possesses strong generalization abilities. Project page:
https://github.com/luosiallen/latent-consistency-model.