ChatPaper.aiChatPaper

Distillation Progressive des Connaissances de Stable Diffusion XL Utilisant une Perte au Niveau des Couches

Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss

January 5, 2024
Auteurs: Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul, Patrick Von Platen
cs.AI

Résumé

Stable Diffusion XL (SDXL) est devenu le meilleur modèle open source de génération d'image à partir de texte (T2I) grâce à sa polyvalence et à sa qualité d'image exceptionnelle. Répondre efficacement aux exigences computationnelles des modèles SDXL est crucial pour élargir leur portée et leur applicabilité. Dans ce travail, nous introduisons deux variantes réduites, Segmind Stable Diffusion (SSD-1B) et Segmind-Vega, avec des UNets de 1,3 milliard et 0,74 milliard de paramètres respectivement, obtenues par suppression progressive en utilisant des pertes au niveau des couches visant à réduire la taille du modèle tout en préservant la qualité générative. Nous publions les poids de ces modèles sur https://hf.co/Segmind. Notre méthodologie implique l'élimination des réseaux résiduels et des blocs de transformateurs de la structure U-Net de SDXL, entraînant des réductions significatives des paramètres et de la latence. Nos modèles compacts imitent efficacement le SDXL original en capitalisant sur les connaissances transférées, obtenant des résultats compétitifs par rapport aux SDXL plus volumineux avec plusieurs milliards de paramètres. Notre travail met en évidence l'efficacité de la distillation de connaissances couplée à des pertes au niveau des couches pour réduire la taille du modèle tout en préservant les capacités génératives de haute qualité de SDXL, facilitant ainsi un déploiement plus accessible dans des environnements à ressources limitées.
English
Stable Diffusion XL (SDXL) has become the best open source text-to-image model (T2I) for its versatility and top-notch image quality. Efficiently addressing the computational demands of SDXL models is crucial for wider reach and applicability. In this work, we introduce two scaled-down variants, Segmind Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter UNets, respectively, achieved through progressive removal using layer-level losses focusing on reducing the model size while preserving generative quality. We release these models weights at https://hf.co/Segmind. Our methodology involves the elimination of residual networks and transformer blocks from the U-Net structure of SDXL, resulting in significant reductions in parameters, and latency. Our compact models effectively emulate the original SDXL by capitalizing on transferred knowledge, achieving competitive results against larger multi-billion parameter SDXL. Our work underscores the efficacy of knowledge distillation coupled with layer-level losses in reducing model size while preserving the high-quality generative capabilities of SDXL, thus facilitating more accessible deployment in resource-constrained environments.
PDF242December 15, 2024