Progressieve Kennisdistillatie van Stable Diffusion XL met Laagniveau Verlies
Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss
January 5, 2024
Auteurs: Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul, Patrick Von Platen
cs.AI
Samenvatting
Stable Diffusion XL (SDXL) is uitgegroeid tot het beste open-source tekst-naar-beeldmodel (T2I) vanwege zijn veelzijdigheid en uitstekende beeldkwaliteit. Het efficiënt aanpakken van de rekenkundige eisen van SDXL-modellen is cruciaal voor een bredere toegankelijkheid en toepasbaarheid. In dit werk introduceren we twee geschaalde varianten, Segmind Stable Diffusion (SSD-1B) en Segmind-Vega, met respectievelijk 1,3 miljard en 0,74 miljard parameters in de UNets, bereikt door progressieve verwijdering met behulp van laagniveau-verliezen die gericht zijn op het verkleinen van het modelformaat terwijl de generatieve kwaliteit behouden blijft. We hebben de gewichten van deze modellen vrijgegeven op https://hf.co/Segmind. Onze methodologie omvat het verwijderen van restnetwerken en transformatorblokken uit de U-Net-structuur van SDXL, wat resulteert in aanzienlijke verminderingen in parameters en latentie. Onze compacte modellen bootsen het originele SDXL effectief na door gebruik te maken van overgedragen kennis, en behalen concurrerende resultaten ten opzichte van grotere SDXL-modellen met meerdere miljarden parameters. Ons werk benadrukt de effectiviteit van kennisdistillatie in combinatie met laagniveau-verliezen bij het verkleinen van het modelformaat, terwijl de hoogwaardige generatieve mogelijkheden van SDXL behouden blijven, waardoor de implementatie in omgevingen met beperkte middelen toegankelijker wordt.
English
Stable Diffusion XL (SDXL) has become the best open source text-to-image
model (T2I) for its versatility and top-notch image quality. Efficiently
addressing the computational demands of SDXL models is crucial for wider reach
and applicability. In this work, we introduce two scaled-down variants, Segmind
Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter
UNets, respectively, achieved through progressive removal using layer-level
losses focusing on reducing the model size while preserving generative quality.
We release these models weights at https://hf.co/Segmind. Our methodology
involves the elimination of residual networks and transformer blocks from the
U-Net structure of SDXL, resulting in significant reductions in parameters, and
latency. Our compact models effectively emulate the original SDXL by
capitalizing on transferred knowledge, achieving competitive results against
larger multi-billion parameter SDXL. Our work underscores the efficacy of
knowledge distillation coupled with layer-level losses in reducing model size
while preserving the high-quality generative capabilities of SDXL, thus
facilitating more accessible deployment in resource-constrained environments.