SDXS:画像条件付きリアルタイムワンステップ潜在拡散モデル
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions
March 25, 2024
著者: Yuda Song, Zehao Sun, Xuanwu Yin
cs.AI
要旨
近年の拡散モデルの進展により、それらは画像生成の最先端に位置づけられています。優れた性能を持つ一方で、拡散モデルには欠点も存在します。複雑なアーキテクチャと膨大な計算リソースを必要とし、反復的なサンプリングプロセスによる著しい遅延が特徴です。これらの制約を緩和するため、我々はモデルの小型化とサンプリングステップの削減を組み合わせた二重のアプローチを提案し、モデルの遅延を大幅に低減することを目指します。我々の手法は、知識蒸留を活用してU-Netと画像デコーダのアーキテクチャを簡素化し、特徴マッチングとスコア蒸留を利用した革新的なワンステップDMトレーニング技術を導入します。SDXS-512とSDXS-1024という2つのモデルを提示し、それぞれ単一GPU上で約100 FPS(SD v1.5の30倍速)と30 FPS(SDXLの60倍速)の推論速度を達成しました。さらに、我々のトレーニングアプローチは、効率的な画像間変換を可能にする画像条件付き制御への応用の可能性を示しています。
English
Recent advancements in diffusion models have positioned them at the forefront
of image generation. Despite their superior performance, diffusion models are
not without drawbacks; they are characterized by complex architectures and
substantial computational demands, resulting in significant latency due to
their iterative sampling process. To mitigate these limitations, we introduce a
dual approach involving model miniaturization and a reduction in sampling
steps, aimed at significantly decreasing model latency. Our methodology
leverages knowledge distillation to streamline the U-Net and image decoder
architectures, and introduces an innovative one-step DM training technique that
utilizes feature matching and score distillation. We present two models,
SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS
(30x faster than SD v1.5) and 30 FP (60x faster than SDXL) on a single GPU,
respectively. Moreover, our training approach offers promising applications in
image-conditioned control, facilitating efficient image-to-image translation.Summary
AI-Generated Summary