LCM-LoRA: Un Modulo Universale per l'Accelerazione di Stable-Diffusion

Abstract

I Modelli di Consistenza Latente (LCM) hanno ottenuto prestazioni impressionanti nell'accelerazione delle attività di generazione da testo a immagine, producendo immagini di alta qualità con un numero minimo di passaggi di inferenza. Gli LCM sono distillati da modelli di diffusione latente (LDM) pre-addestrati, richiedendo solo circa 32 ore di addestramento su GPU A100. Questo rapporto estende ulteriormente il potenziale degli LCM in due aspetti: in primo luogo, applicando la distillazione LoRA a modelli Stable-Diffusion come SD-V1.5, SSD-1B e SDXL, abbiamo ampliato la portata degli LCM a modelli più grandi con un consumo di memoria significativamente inferiore, ottenendo una qualità di generazione delle immagini superiore. In secondo luogo, identifichiamo i parametri LoRA ottenuti attraverso la distillazione LCM come un modulo universale di accelerazione per Stable-Diffusion, denominato LCM-LoRA. LCM-LoRA può essere direttamente integrato in vari modelli Stable-Diffusion fine-tuned o in altri LoRA senza necessità di ulteriore addestramento, rappresentando così un acceleratore universalmente applicabile per diverse attività di generazione di immagini. Rispetto ai precedenti risolutori numerici di PF-ODE come DDIM e DPM-Solver, LCM-LoRA può essere visto come un risolutore neurale plug-in di PF-ODE che possiede forti capacità di generalizzazione. Pagina del progetto: https://github.com/luosiallen/latent-consistency-model.

English

Latent Consistency Models (LCMs) have achieved impressive performance in accelerating text-to-image generative tasks, producing high-quality images with minimal inference steps. LCMs are distilled from pre-trained latent diffusion models (LDMs), requiring only ~32 A100 GPU training hours. This report further extends LCMs' potential in two aspects: First, by applying LoRA distillation to Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded LCM's scope to larger models with significantly less memory consumption, achieving superior image generation quality. Second, we identify the LoRA parameters obtained through LCM distillation as a universal Stable-Diffusion acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into various Stable-Diffusion fine-tuned models or LoRAs without training, thus representing a universally applicable accelerator for diverse image generation tasks. Compared with previous numerical PF-ODE solvers such as DDIM, DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that possesses strong generalization abilities. Project page: https://github.com/luosiallen/latent-consistency-model.

LCM-LoRA: Un Modulo Universale per l'Accelerazione di Stable-Diffusion

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

Abstract

Support