ChatPaper.aiChatPaper

LCM-LoRA : Un module universel d'accélération pour Stable Diffusion

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

November 9, 2023
Auteurs: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao
cs.AI

Résumé

Les Modèles de Cohérence Latente (Latent Consistency Models, LCMs) ont démontré des performances impressionnantes dans l'accélération des tâches de génération texte-image, produisant des images de haute qualité avec un nombre minimal d'étapes d'inférence. Les LCMs sont distillés à partir de modèles de diffusion latente pré-entraînés (Latent Diffusion Models, LDMs), nécessitant seulement environ 32 heures d'entraînement sur GPU A100. Ce rapport étend le potentiel des LCMs dans deux aspects : Premièrement, en appliquant la distillation LoRA aux modèles Stable-Diffusion, notamment SD-V1.5, SSD-1B et SDXL, nous avons élargi la portée des LCMs à des modèles plus grands avec une consommation mémoire significativement réduite, tout en obtenant une qualité d'image supérieure. Deuxièmement, nous identifions les paramètres LoRA obtenus par distillation LCM comme un module universel d'accélération pour Stable-Diffusion, nommé LCM-LoRA. LCM-LoRA peut être directement intégré dans divers modèles Stable-Diffusion fine-tunés ou LoRAs sans nécessiter d'entraînement supplémentaire, représentant ainsi un accélérateur universellement applicable pour diverses tâches de génération d'images. Comparé aux solveurs numériques précédents d'équations différentielles ordinaires à champ de potentiel (PF-ODE) tels que DDIM et DPM-Solver, LCM-LoRA peut être considéré comme un solveur neuronal plug-in de PF-ODE doté de fortes capacités de généralisation. Page du projet : https://github.com/luosiallen/latent-consistency-model.
English
Latent Consistency Models (LCMs) have achieved impressive performance in accelerating text-to-image generative tasks, producing high-quality images with minimal inference steps. LCMs are distilled from pre-trained latent diffusion models (LDMs), requiring only ~32 A100 GPU training hours. This report further extends LCMs' potential in two aspects: First, by applying LoRA distillation to Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded LCM's scope to larger models with significantly less memory consumption, achieving superior image generation quality. Second, we identify the LoRA parameters obtained through LCM distillation as a universal Stable-Diffusion acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into various Stable-Diffusion fine-tuned models or LoRAs without training, thus representing a universally applicable accelerator for diverse image generation tasks. Compared with previous numerical PF-ODE solvers such as DDIM, DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that possesses strong generalization abilities. Project page: https://github.com/luosiallen/latent-consistency-model.
PDF875December 15, 2024