LCM-LoRA: Een Universele Versnellingsmodule voor Stable-Diffusion
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
November 9, 2023
Auteurs: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao
cs.AI
Samenvatting
Latent Consistency Models (LCM's) hebben indrukwekkende prestaties geleverd bij het versnellen van tekst-naar-beeld generatieve taken, waarbij hoogwaardige afbeeldingen worden geproduceerd met een minimaal aantal inferentiestappen. LCM's zijn gedistilleerd uit vooraf getrainde latent diffusion models (LDM's) en vereisen slechts ~32 A100 GPU-trainingsuren. Dit rapport breidt het potentieel van LCM's verder uit in twee aspecten: Ten eerste hebben we door het toepassen van LoRA-distillatie op Stable-Diffusion modellen, waaronder SD-V1.5, SSD-1B en SDXL, de reikwijdte van LCM uitgebreid naar grotere modellen met aanzienlijk minder geheugenverbruik, wat resulteert in superieure beeldgeneratiekwaliteit. Ten tweede identificeren we de LoRA-parameters die zijn verkregen via LCM-distillatie als een universele Stable-Diffusion versnellingsmodule, genaamd LCM-LoRA. LCM-LoRA kan direct worden ingeplugd in verschillende Stable-Diffusion fijn afgestemde modellen of LoRA's zonder training, en vertegenwoordigt daarmee een universeel toepasbare versneller voor diverse beeldgeneratietaken. In vergelijking met eerdere numerieke PF-ODE-oplossers zoals DDIM en DPM-Solver, kan LCM-LoRA worden gezien als een plug-in neurale PF-ODE-oplosser die sterke generalisatievermogens bezit. Projectpagina: https://github.com/luosiallen/latent-consistency-model.
English
Latent Consistency Models (LCMs) have achieved impressive performance in
accelerating text-to-image generative tasks, producing high-quality images with
minimal inference steps. LCMs are distilled from pre-trained latent diffusion
models (LDMs), requiring only ~32 A100 GPU training hours. This report further
extends LCMs' potential in two aspects: First, by applying LoRA distillation to
Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded
LCM's scope to larger models with significantly less memory consumption,
achieving superior image generation quality. Second, we identify the LoRA
parameters obtained through LCM distillation as a universal Stable-Diffusion
acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into
various Stable-Diffusion fine-tuned models or LoRAs without training, thus
representing a universally applicable accelerator for diverse image generation
tasks. Compared with previous numerical PF-ODE solvers such as DDIM,
DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that
possesses strong generalization abilities. Project page:
https://github.com/luosiallen/latent-consistency-model.