ChatPaper.aiChatPaper

Distilação Progressiva de Conhecimento do Stable Diffusion XL Usando Perda em Nível de Camada

Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss

January 5, 2024
Autores: Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul, Patrick Von Platen
cs.AI

Resumo

O Stable Diffusion XL (SDXL) tornou-se o melhor modelo de texto para imagem (T2I) de código aberto devido à sua versatilidade e qualidade de imagem de alto nível. Abordar de forma eficiente as demandas computacionais dos modelos SDXL é crucial para ampliar seu alcance e aplicabilidade. Neste trabalho, introduzimos duas variantes reduzidas, o Segmind Stable Diffusion (SSD-1B) e o Segmind-Vega, com UNets de 1,3 bilhões e 0,74 bilhões de parâmetros, respectivamente, alcançados por meio da remoção progressiva utilizando perdas em nível de camada, focando na redução do tamanho do modelo enquanto preservamos a qualidade gerativa. Disponibilizamos os pesos desses modelos em https://hf.co/Segmind. Nossa metodologia envolve a eliminação de redes residuais e blocos de transformadores da estrutura U-Net do SDXL, resultando em reduções significativas de parâmetros e latência. Nossos modelos compactos emulam efetivamente o SDXL original ao aproveitar o conhecimento transferido, alcançando resultados competitivos em comparação com o SDXL maior, que possui bilhões de parâmetros. Nosso trabalho destaca a eficácia da destilação de conhecimento combinada com perdas em nível de camada na redução do tamanho do modelo, mantendo as capacidades gerativas de alta qualidade do SDXL, facilitando assim uma implantação mais acessível em ambientes com recursos limitados.
English
Stable Diffusion XL (SDXL) has become the best open source text-to-image model (T2I) for its versatility and top-notch image quality. Efficiently addressing the computational demands of SDXL models is crucial for wider reach and applicability. In this work, we introduce two scaled-down variants, Segmind Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter UNets, respectively, achieved through progressive removal using layer-level losses focusing on reducing the model size while preserving generative quality. We release these models weights at https://hf.co/Segmind. Our methodology involves the elimination of residual networks and transformer blocks from the U-Net structure of SDXL, resulting in significant reductions in parameters, and latency. Our compact models effectively emulate the original SDXL by capitalizing on transferred knowledge, achieving competitive results against larger multi-billion parameter SDXL. Our work underscores the efficacy of knowledge distillation coupled with layer-level losses in reducing model size while preserving the high-quality generative capabilities of SDXL, thus facilitating more accessible deployment in resource-constrained environments.
PDF232February 7, 2026