安定拡散XLのレイヤーレベル損失を用いた段階的知識蒸留
Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss
January 5, 2024
著者: Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul, Patrick Von Platen
cs.AI
要旨
Stable Diffusion XL(SDXL)は、その汎用性と最高水準の画質により、最も優れたオープンソースのテキストから画像への生成モデル(T2I)となっています。SDXLモデルの計算需要を効率的に処理することは、その普及と適用範囲を広げるために極めて重要です。本研究では、層レベルの損失に焦点を当ててモデルサイズを削減しつつ生成品質を維持する手法により、1.3Bおよび0.74BパラメータのUNetを持つ縮小版モデル、Segmind Stable Diffusion(SSD-1B)とSegmind-Vegaを導入します。これらのモデルの重みはhttps://hf.co/Segmindで公開しています。私たちの手法は、SDXLのU-Net構造から残差ネットワークとトランスフォーマーブロックを除去し、パラメータ数とレイテンシを大幅に削減するものです。私たちのコンパクトモデルは、転移学習を活用することで元のSDXLを効果的に模倣し、大規模な数十億パラメータのSDXLに対しても競争力のある結果を達成します。本研究は、知識蒸留と層レベルの損失を組み合わせることで、SDXLの高品質な生成能力を維持しつつモデルサイズを削減する有効性を示し、リソースが制限された環境でのよりアクセスしやすい展開を可能にします。
English
Stable Diffusion XL (SDXL) has become the best open source text-to-image
model (T2I) for its versatility and top-notch image quality. Efficiently
addressing the computational demands of SDXL models is crucial for wider reach
and applicability. In this work, we introduce two scaled-down variants, Segmind
Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter
UNets, respectively, achieved through progressive removal using layer-level
losses focusing on reducing the model size while preserving generative quality.
We release these models weights at https://hf.co/Segmind. Our methodology
involves the elimination of residual networks and transformer blocks from the
U-Net structure of SDXL, resulting in significant reductions in parameters, and
latency. Our compact models effectively emulate the original SDXL by
capitalizing on transferred knowledge, achieving competitive results against
larger multi-billion parameter SDXL. Our work underscores the efficacy of
knowledge distillation coupled with layer-level losses in reducing model size
while preserving the high-quality generative capabilities of SDXL, thus
facilitating more accessible deployment in resource-constrained environments.