ChatPaper.aiChatPaper

LCM-LoRA: Un Módulo Universal de Aceleración para Stable-Diffusion

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

November 9, 2023
Autores: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao
cs.AI

Resumen

Los Modelos de Consistencia Latente (LCM, por sus siglas en inglés) han logrado un rendimiento impresionante en la aceleración de tareas generativas de texto a imagen, produciendo imágenes de alta calidad con un número mínimo de pasos de inferencia. Los LCM se destilan a partir de modelos de difusión latente (LDM) preentrenados, requiriendo solo ~32 horas de entrenamiento en GPU A100. Este informe amplía aún más el potencial de los LCM en dos aspectos: En primer lugar, al aplicar la destilación LoRA a modelos de Stable-Diffusion, incluyendo SD-V1.5, SSD-1B y SDXL, hemos ampliado el alcance de los LCM a modelos más grandes con un consumo de memoria significativamente menor, logrando una calidad superior en la generación de imágenes. En segundo lugar, identificamos los parámetros LoRA obtenidos mediante la destilación LCM como un módulo universal de aceleración para Stable-Diffusion, denominado LCM-LoRA. LCM-LoRA puede integrarse directamente en varios modelos ajustados de Stable-Diffusion o en otros LoRAs sin necesidad de entrenamiento adicional, representando así un acelerador universalmente aplicable para diversas tareas de generación de imágenes. En comparación con solucionadores numéricos previos de PF-ODE, como DDIM y DPM-Solver, LCM-LoRA puede verse como un solucionador neural de PF-ODE plug-in que posee fuertes capacidades de generalización. Página del proyecto: https://github.com/luosiallen/latent-consistency-model.
English
Latent Consistency Models (LCMs) have achieved impressive performance in accelerating text-to-image generative tasks, producing high-quality images with minimal inference steps. LCMs are distilled from pre-trained latent diffusion models (LDMs), requiring only ~32 A100 GPU training hours. This report further extends LCMs' potential in two aspects: First, by applying LoRA distillation to Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded LCM's scope to larger models with significantly less memory consumption, achieving superior image generation quality. Second, we identify the LoRA parameters obtained through LCM distillation as a universal Stable-Diffusion acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into various Stable-Diffusion fine-tuned models or LoRAs without training, thus representing a universally applicable accelerator for diverse image generation tasks. Compared with previous numerical PF-ODE solvers such as DDIM, DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that possesses strong generalization abilities. Project page: https://github.com/luosiallen/latent-consistency-model.
PDF875December 15, 2024