Distillazione Progressiva della Conoscenza di Stable Diffusion XL Utilizzando la Perdita a Livello di Strato

Abstract

Stable Diffusion XL (SDXL) è diventato il miglior modello open source di testo-immagine (T2I) grazie alla sua versatilità e alla qualità d'immagine di prim'ordine. Affrontare in modo efficiente le esigenze computazionali dei modelli SDXL è cruciale per una diffusione e applicabilità più ampia. In questo lavoro, introduciamo due varianti ridotte, Segmind Stable Diffusion (SSD-1B) e Segmind-Vega, con UNet rispettivamente da 1,3 miliardi e 0,74 miliardi di parametri, ottenute attraverso la rimozione progressiva utilizzando perdite a livello di strato, focalizzate sulla riduzione delle dimensioni del modello preservando la qualità generativa. Rilasciamo i pesi di questi modelli su https://hf.co/Segmind. La nostra metodologia prevede l'eliminazione di reti residue e blocchi transformer dalla struttura U-Net di SDXL, ottenendo riduzioni significative nei parametri e nella latenza. I nostri modelli compatti emulano efficacemente l'originale SDXL sfruttando la conoscenza trasferita, raggiungendo risultati competitivi rispetto ai modelli SDXL più grandi con miliardi di parametri. Il nostro lavoro sottolinea l'efficacia della distillazione della conoscenza abbinata a perdite a livello di strato nel ridurre le dimensioni del modello preservando le capacità generative di alta qualità di SDXL, facilitando così una distribuzione più accessibile in ambienti con risorse limitate.

English

Stable Diffusion XL (SDXL) has become the best open source text-to-image model (T2I) for its versatility and top-notch image quality. Efficiently addressing the computational demands of SDXL models is crucial for wider reach and applicability. In this work, we introduce two scaled-down variants, Segmind Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter UNets, respectively, achieved through progressive removal using layer-level losses focusing on reducing the model size while preserving generative quality. We release these models weights at https://hf.co/Segmind. Our methodology involves the elimination of residual networks and transformer blocks from the U-Net structure of SDXL, resulting in significant reductions in parameters, and latency. Our compact models effectively emulate the original SDXL by capitalizing on transferred knowledge, achieving competitive results against larger multi-billion parameter SDXL. Our work underscores the efficacy of knowledge distillation coupled with layer-level losses in reducing model size while preserving the high-quality generative capabilities of SDXL, thus facilitating more accessible deployment in resource-constrained environments.

Distillazione Progressiva della Conoscenza di Stable Diffusion XL Utilizzando la Perdita a Livello di Strato

Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss

Abstract

Support