LCM-LoRA: Um Módulo Universal de Aceleração para Stable Diffusion
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
November 9, 2023
Autores: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao
cs.AI
Resumo
Os Modelos de Consistência Latente (LCMs) alcançaram desempenho impressionante na aceleração de tarefas gerativas de texto para imagem, produzindo imagens de alta qualidade com um número mínimo de passos de inferência. Os LCMs são destilados a partir de modelos de difusão latente (LDMs) pré-treinados, exigindo apenas cerca de 32 horas de treinamento em GPUs A100. Este relatório expande ainda mais o potencial dos LCMs em dois aspectos: Primeiro, ao aplicar a destilação LoRA a modelos Stable-Diffusion, incluindo SD-V1.5, SSD-1B e SDXL, ampliamos o escopo dos LCMs para modelos maiores com consumo de memória significativamente menor, alcançando qualidade superior na geração de imagens. Segundo, identificamos os parâmetros LoRA obtidos por meio da destilação LCM como um módulo universal de aceleração para Stable-Diffusion, denominado LCM-LoRA. O LCM-LoRA pode ser diretamente integrado a diversos modelos Stable-Diffusion ajustados ou LoRAs sem necessidade de treinamento, representando assim um acelerador universalmente aplicável para diversas tarefas de geração de imagens. Em comparação com solucionadores numéricos anteriores de PF-ODE, como DDIM e DPM-Solver, o LCM-LoRA pode ser visto como um solucionador neural plug-in de PF-ODE que possui fortes habilidades de generalização. Página do projeto: https://github.com/luosiallen/latent-consistency-model.
English
Latent Consistency Models (LCMs) have achieved impressive performance in
accelerating text-to-image generative tasks, producing high-quality images with
minimal inference steps. LCMs are distilled from pre-trained latent diffusion
models (LDMs), requiring only ~32 A100 GPU training hours. This report further
extends LCMs' potential in two aspects: First, by applying LoRA distillation to
Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded
LCM's scope to larger models with significantly less memory consumption,
achieving superior image generation quality. Second, we identify the LoRA
parameters obtained through LCM distillation as a universal Stable-Diffusion
acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into
various Stable-Diffusion fine-tuned models or LoRAs without training, thus
representing a universally applicable accelerator for diverse image generation
tasks. Compared with previous numerical PF-ODE solvers such as DDIM,
DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that
possesses strong generalization abilities. Project page:
https://github.com/luosiallen/latent-consistency-model.