LCM-LoRA: Un Modulo Universale per l'Accelerazione di Stable-Diffusion
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
November 9, 2023
Autori: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao
cs.AI
Abstract
I Modelli di Consistenza Latente (LCM) hanno ottenuto prestazioni impressionanti nell'accelerazione delle attività di generazione da testo a immagine, producendo immagini di alta qualità con un numero minimo di passaggi di inferenza. Gli LCM sono distillati da modelli di diffusione latente (LDM) pre-addestrati, richiedendo solo circa 32 ore di addestramento su GPU A100. Questo rapporto estende ulteriormente il potenziale degli LCM in due aspetti: in primo luogo, applicando la distillazione LoRA a modelli Stable-Diffusion come SD-V1.5, SSD-1B e SDXL, abbiamo ampliato la portata degli LCM a modelli più grandi con un consumo di memoria significativamente inferiore, ottenendo una qualità di generazione delle immagini superiore. In secondo luogo, identifichiamo i parametri LoRA ottenuti attraverso la distillazione LCM come un modulo universale di accelerazione per Stable-Diffusion, denominato LCM-LoRA. LCM-LoRA può essere direttamente integrato in vari modelli Stable-Diffusion fine-tuned o in altri LoRA senza necessità di ulteriore addestramento, rappresentando così un acceleratore universalmente applicabile per diverse attività di generazione di immagini. Rispetto ai precedenti risolutori numerici di PF-ODE come DDIM e DPM-Solver, LCM-LoRA può essere visto come un risolutore neurale plug-in di PF-ODE che possiede forti capacità di generalizzazione. Pagina del progetto: https://github.com/luosiallen/latent-consistency-model.
English
Latent Consistency Models (LCMs) have achieved impressive performance in
accelerating text-to-image generative tasks, producing high-quality images with
minimal inference steps. LCMs are distilled from pre-trained latent diffusion
models (LDMs), requiring only ~32 A100 GPU training hours. This report further
extends LCMs' potential in two aspects: First, by applying LoRA distillation to
Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded
LCM's scope to larger models with significantly less memory consumption,
achieving superior image generation quality. Second, we identify the LoRA
parameters obtained through LCM distillation as a universal Stable-Diffusion
acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into
various Stable-Diffusion fine-tuned models or LoRAs without training, thus
representing a universally applicable accelerator for diverse image generation
tasks. Compared with previous numerical PF-ODE solvers such as DDIM,
DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that
possesses strong generalization abilities. Project page:
https://github.com/luosiallen/latent-consistency-model.