LCM-LoRA: Um Módulo Universal de Aceleração para Stable Diffusion

Resumo

Os Modelos de Consistência Latente (LCMs) alcançaram desempenho impressionante na aceleração de tarefas gerativas de texto para imagem, produzindo imagens de alta qualidade com um número mínimo de passos de inferência. Os LCMs são destilados a partir de modelos de difusão latente (LDMs) pré-treinados, exigindo apenas cerca de 32 horas de treinamento em GPUs A100. Este relatório expande ainda mais o potencial dos LCMs em dois aspectos: Primeiro, ao aplicar a destilação LoRA a modelos Stable-Diffusion, incluindo SD-V1.5, SSD-1B e SDXL, ampliamos o escopo dos LCMs para modelos maiores com consumo de memória significativamente menor, alcançando qualidade superior na geração de imagens. Segundo, identificamos os parâmetros LoRA obtidos por meio da destilação LCM como um módulo universal de aceleração para Stable-Diffusion, denominado LCM-LoRA. O LCM-LoRA pode ser diretamente integrado a diversos modelos Stable-Diffusion ajustados ou LoRAs sem necessidade de treinamento, representando assim um acelerador universalmente aplicável para diversas tarefas de geração de imagens. Em comparação com solucionadores numéricos anteriores de PF-ODE, como DDIM e DPM-Solver, o LCM-LoRA pode ser visto como um solucionador neural plug-in de PF-ODE que possui fortes habilidades de generalização. Página do projeto: https://github.com/luosiallen/latent-consistency-model.

English

Latent Consistency Models (LCMs) have achieved impressive performance in accelerating text-to-image generative tasks, producing high-quality images with minimal inference steps. LCMs are distilled from pre-trained latent diffusion models (LDMs), requiring only ~32 A100 GPU training hours. This report further extends LCMs' potential in two aspects: First, by applying LoRA distillation to Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded LCM's scope to larger models with significantly less memory consumption, achieving superior image generation quality. Second, we identify the LoRA parameters obtained through LCM distillation as a universal Stable-Diffusion acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into various Stable-Diffusion fine-tuned models or LoRAs without training, thus representing a universally applicable accelerator for diverse image generation tasks. Compared with previous numerical PF-ODE solvers such as DDIM, DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that possesses strong generalization abilities. Project page: https://github.com/luosiallen/latent-consistency-model.

LCM-LoRA: Um Módulo Universal de Aceleração para Stable Diffusion

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

Resumo

Support