ChatPaper.aiChatPaper

LCM-LoRA: Универсальный модуль ускорения для Stable Diffusion

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

November 9, 2023
Авторы: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao
cs.AI

Аннотация

Модели латентной согласованности (LCM) продемонстрировали впечатляющие результаты в ускорении задач генерации изображений из текста, создавая высококачественные изображения с минимальным количеством шагов вывода. LCM обучаются на основе предварительно обученных моделей латентной диффузии (LDM), требуя всего около 32 часов обучения на GPU A100. В данном отчете потенциал LCM расширяется в двух направлениях: во-первых, путем применения дистилляции LoRA к моделям Stable-Diffusion, включая SD-V1.5, SSD-1B и SDXL, мы расширили область применения LCM на более крупные модели с существенно меньшим потреблением памяти, достигая превосходного качества генерации изображений. Во-вторых, мы определили параметры LoRA, полученные в процессе дистилляции LCM, как универсальный модуль ускорения для Stable-Diffusion, названный LCM-LoRA. LCM-LoRA может быть напрямую подключен к различным тонко настроенным моделям Stable-Diffusion или LoRA без дополнительного обучения, что делает его универсальным ускорителем для разнообразных задач генерации изображений. По сравнению с предыдущими численными решателями PF-ODE, такими как DDIM и DPM-Solver, LCM-LoRA можно рассматривать как подключаемый нейронный решатель PF-ODE, обладающий мощными способностями к обобщению. Страница проекта: https://github.com/luosiallen/latent-consistency-model.
English
Latent Consistency Models (LCMs) have achieved impressive performance in accelerating text-to-image generative tasks, producing high-quality images with minimal inference steps. LCMs are distilled from pre-trained latent diffusion models (LDMs), requiring only ~32 A100 GPU training hours. This report further extends LCMs' potential in two aspects: First, by applying LoRA distillation to Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded LCM's scope to larger models with significantly less memory consumption, achieving superior image generation quality. Second, we identify the LoRA parameters obtained through LCM distillation as a universal Stable-Diffusion acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into various Stable-Diffusion fine-tuned models or LoRAs without training, thus representing a universally applicable accelerator for diverse image generation tasks. Compared with previous numerical PF-ODE solvers such as DDIM, DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that possesses strong generalization abilities. Project page: https://github.com/luosiallen/latent-consistency-model.
PDF875December 15, 2024