LCM-LoRA: Ein universelles Beschleunigungsmodul für Stable-Diffusion
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
November 9, 2023
Autoren: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao
cs.AI
Zusammenfassung
Latent Consistency Models (LCMs) haben beeindruckende Leistungen bei der Beschleunigung von Text-zu-Bild-Generierungsaufgaben gezeigt und erzeugen hochwertige Bilder mit minimalen Inferenzschritten. LCMs werden aus vortrainierten Latent Diffusion Models (LDMs) destilliert und benötigen nur etwa 32 A100 GPU-Trainingsstunden. Dieser Bericht erweitert das Potenzial von LCMs in zwei Aspekten: Erstens haben wir durch die Anwendung von LoRA-Destillation auf Stable-Diffusion-Modelle wie SD-V1.5, SSD-1B und SDXL den Anwendungsbereich von LCMs auf größere Modelle mit deutlich geringerem Speicherverbrauch ausgedehnt und dabei eine überlegene Bildgenerierungsqualität erreicht. Zweitens identifizieren wir die durch LCM-Destillation gewonnenen LoRA-Parameter als ein universelles Stable-Diffusion-Beschleunigungsmodul, das als LCM-LoRA bezeichnet wird. LCM-LoRA kann direkt in verschiedene feinabgestimmte Stable-Diffusion-Modelle oder LoRAs eingebunden werden, ohne dass ein Training erforderlich ist, und stellt somit einen universell anwendbaren Beschleuniger für diverse Bildgenerierungsaufgaben dar. Im Vergleich zu früheren numerischen PF-ODE-Solvern wie DDIM und DPM-Solver kann LCM-LoRA als ein Plug-in-Neural-PF-ODE-Solver betrachtet werden, der über starke Generalisierungsfähigkeiten verfügt. Projektseite: https://github.com/luosiallen/latent-consistency-model.
English
Latent Consistency Models (LCMs) have achieved impressive performance in
accelerating text-to-image generative tasks, producing high-quality images with
minimal inference steps. LCMs are distilled from pre-trained latent diffusion
models (LDMs), requiring only ~32 A100 GPU training hours. This report further
extends LCMs' potential in two aspects: First, by applying LoRA distillation to
Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded
LCM's scope to larger models with significantly less memory consumption,
achieving superior image generation quality. Second, we identify the LoRA
parameters obtained through LCM distillation as a universal Stable-Diffusion
acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into
various Stable-Diffusion fine-tuned models or LoRAs without training, thus
representing a universally applicable accelerator for diverse image generation
tasks. Compared with previous numerical PF-ODE solvers such as DDIM,
DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that
possesses strong generalization abilities. Project page:
https://github.com/luosiallen/latent-consistency-model.