Progressives Wissensdistillieren von Stable Diffusion XL unter Verwendung von Layer-Level-Verlust
Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss
January 5, 2024
Autoren: Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul, Patrick Von Platen
cs.AI
Zusammenfassung
Stable Diffusion XL (SDXL) hat sich aufgrund seiner Vielseitigkeit und erstklassigen Bildqualität als das beste Open-Source-Text-zu-Bild-Modell (T2I) etabliert. Die effiziente Bewältigung der rechenintensiven Anforderungen von SDXL-Modellen ist entscheidend für eine breitere Reichweite und Anwendbarkeit. In dieser Arbeit stellen wir zwei skalierte Varianten vor, Segmind Stable Diffusion (SSD-1B) und Segmind-Vega, mit 1,3 Milliarden bzw. 0,74 Milliarden Parametern in den UNets, die durch schrittweise Entfernung mithilfe von Layer-Level-Verlusten erreicht wurden, um die Modellgröße zu reduzieren und gleichzeitig die generative Qualität zu bewahren. Wir veröffentlichen die Gewichte dieser Modelle unter https://hf.co/Segmind. Unsere Methodik umfasst die Entfernung von Residualnetzwerken und Transformer-Blöcken aus der U-Net-Struktur von SDXL, was zu einer signifikanten Reduzierung der Parameter und der Latenz führt. Unsere kompakten Modelle imitieren das ursprüngliche SDXL effektiv, indem sie auf übertragenes Wissen zurückgreifen, und erzielen wettbewerbsfähige Ergebnisse im Vergleich zu größeren SDXL-Modellen mit mehreren Milliarden Parametern. Unsere Arbeit unterstreicht die Wirksamkeit von Wissensdestillation in Kombination mit Layer-Level-Verlusten bei der Reduzierung der Modellgröße, während die hochwertigen generativen Fähigkeiten von SDXL erhalten bleiben, wodurch eine zugänglichere Bereitstellung in ressourcenbeschränkten Umgebungen ermöglicht wird.
English
Stable Diffusion XL (SDXL) has become the best open source text-to-image
model (T2I) for its versatility and top-notch image quality. Efficiently
addressing the computational demands of SDXL models is crucial for wider reach
and applicability. In this work, we introduce two scaled-down variants, Segmind
Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter
UNets, respectively, achieved through progressive removal using layer-level
losses focusing on reducing the model size while preserving generative quality.
We release these models weights at https://hf.co/Segmind. Our methodology
involves the elimination of residual networks and transformer blocks from the
U-Net structure of SDXL, resulting in significant reductions in parameters, and
latency. Our compact models effectively emulate the original SDXL by
capitalizing on transferred knowledge, achieving competitive results against
larger multi-billion parameter SDXL. Our work underscores the efficacy of
knowledge distillation coupled with layer-level losses in reducing model size
while preserving the high-quality generative capabilities of SDXL, thus
facilitating more accessible deployment in resource-constrained environments.