Distillazione Progressiva della Conoscenza di Stable Diffusion XL Utilizzando la Perdita a Livello di Strato
Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss
January 5, 2024
Autori: Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul, Patrick Von Platen
cs.AI
Abstract
Stable Diffusion XL (SDXL) è diventato il miglior modello open source di testo-immagine (T2I) grazie alla sua versatilità e alla qualità d'immagine di prim'ordine. Affrontare in modo efficiente le esigenze computazionali dei modelli SDXL è cruciale per una diffusione e applicabilità più ampia. In questo lavoro, introduciamo due varianti ridotte, Segmind Stable Diffusion (SSD-1B) e Segmind-Vega, con UNet rispettivamente da 1,3 miliardi e 0,74 miliardi di parametri, ottenute attraverso la rimozione progressiva utilizzando perdite a livello di strato, focalizzate sulla riduzione delle dimensioni del modello preservando la qualità generativa. Rilasciamo i pesi di questi modelli su https://hf.co/Segmind. La nostra metodologia prevede l'eliminazione di reti residue e blocchi transformer dalla struttura U-Net di SDXL, ottenendo riduzioni significative nei parametri e nella latenza. I nostri modelli compatti emulano efficacemente l'originale SDXL sfruttando la conoscenza trasferita, raggiungendo risultati competitivi rispetto ai modelli SDXL più grandi con miliardi di parametri. Il nostro lavoro sottolinea l'efficacia della distillazione della conoscenza abbinata a perdite a livello di strato nel ridurre le dimensioni del modello preservando le capacità generative di alta qualità di SDXL, facilitando così una distribuzione più accessibile in ambienti con risorse limitate.
English
Stable Diffusion XL (SDXL) has become the best open source text-to-image
model (T2I) for its versatility and top-notch image quality. Efficiently
addressing the computational demands of SDXL models is crucial for wider reach
and applicability. In this work, we introduce two scaled-down variants, Segmind
Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter
UNets, respectively, achieved through progressive removal using layer-level
losses focusing on reducing the model size while preserving generative quality.
We release these models weights at https://hf.co/Segmind. Our methodology
involves the elimination of residual networks and transformer blocks from the
U-Net structure of SDXL, resulting in significant reductions in parameters, and
latency. Our compact models effectively emulate the original SDXL by
capitalizing on transferred knowledge, achieving competitive results against
larger multi-billion parameter SDXL. Our work underscores the efficacy of
knowledge distillation coupled with layer-level losses in reducing model size
while preserving the high-quality generative capabilities of SDXL, thus
facilitating more accessible deployment in resource-constrained environments.