LCM-LoRA: ユニバーサルなStable-Diffusion高速化モジュール
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
November 9, 2023
著者: Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao
cs.AI
要旨
潜在的一貫性モデル(LCM)は、テキストから画像生成タスクの高速化において印象的な性能を発揮し、最小限の推論ステップで高品質な画像を生成します。LCMは事前学習済みの潜在拡散モデル(LDM)から蒸留されており、約32時間のA100 GPUトレーニング時間のみを必要とします。本レポートでは、LCMの可能性をさらに2つの側面から拡張しています。第一に、LoRA蒸留をStable-Diffusionモデル(SD-V1.5、SSD-1B、SDXLを含む)に適用することで、LCMの適用範囲をより大規模なモデルに拡大し、大幅に少ないメモリ消費で優れた画像生成品質を実現しました。第二に、LCM蒸留を通じて得られたLoRAパラメータを、普遍的なStable-Diffusion高速化モジュールとして特定し、LCM-LoRAと命名しました。LCM-LoRAは、トレーニングなしでさまざまなStable-DiffusionのファインチューニングモデルやLoRAに直接組み込むことができ、多様な画像生成タスクに普遍的に適用可能なアクセラレータとして機能します。DDIMやDPM-Solverなどの従来の数値PF-ODEソルバーと比較して、LCM-LoRAは強力な汎化能力を持つプラグイン型ニューラルPF-ODEソルバーと見なすことができます。プロジェクトページ:https://github.com/luosiallen/latent-consistency-model。
English
Latent Consistency Models (LCMs) have achieved impressive performance in
accelerating text-to-image generative tasks, producing high-quality images with
minimal inference steps. LCMs are distilled from pre-trained latent diffusion
models (LDMs), requiring only ~32 A100 GPU training hours. This report further
extends LCMs' potential in two aspects: First, by applying LoRA distillation to
Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded
LCM's scope to larger models with significantly less memory consumption,
achieving superior image generation quality. Second, we identify the LoRA
parameters obtained through LCM distillation as a universal Stable-Diffusion
acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into
various Stable-Diffusion fine-tuned models or LoRAs without training, thus
representing a universally applicable accelerator for diverse image generation
tasks. Compared with previous numerical PF-ODE solvers such as DDIM,
DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that
possesses strong generalization abilities. Project page:
https://github.com/luosiallen/latent-consistency-model.