Distilación Progresiva de Conocimiento de Stable Diffusion XL mediante Pérdida a Nivel de Capa
Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss
January 5, 2024
Autores: Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul, Patrick Von Platen
cs.AI
Resumen
Stable Diffusion XL (SDXL) se ha convertido en el mejor modelo de texto a imagen (T2I) de código abierto por su versatilidad y calidad de imagen de primer nivel. Abordar de manera eficiente las demandas computacionales de los modelos SDXL es crucial para una mayor accesibilidad y aplicabilidad. En este trabajo, presentamos dos variantes reducidas, Segmind Stable Diffusion (SSD-1B) y Segmind-Vega, con UNets de 1.3B y 0.74B parámetros, respectivamente, logradas mediante la eliminación progresiva utilizando pérdidas a nivel de capa, enfocadas en reducir el tamaño del modelo mientras se preserva la calidad generativa. Publicamos los pesos de estos modelos en https://hf.co/Segmind. Nuestra metodología implica la eliminación de redes residuales y bloques transformadores de la estructura U-Net de SDXL, lo que resulta en reducciones significativas en parámetros y latencia. Nuestros modelos compactos emulan eficazmente el SDXL original al aprovechar el conocimiento transferido, logrando resultados competitivos frente a SDXL más grandes con miles de millones de parámetros. Nuestro trabajo subraya la eficacia de la destilación de conocimiento combinada con pérdidas a nivel de capa para reducir el tamaño del modelo mientras se preservan las capacidades generativas de alta calidad de SDXL, facilitando así una implementación más accesible en entornos con recursos limitados.
English
Stable Diffusion XL (SDXL) has become the best open source text-to-image
model (T2I) for its versatility and top-notch image quality. Efficiently
addressing the computational demands of SDXL models is crucial for wider reach
and applicability. In this work, we introduce two scaled-down variants, Segmind
Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter
UNets, respectively, achieved through progressive removal using layer-level
losses focusing on reducing the model size while preserving generative quality.
We release these models weights at https://hf.co/Segmind. Our methodology
involves the elimination of residual networks and transformer blocks from the
U-Net structure of SDXL, resulting in significant reductions in parameters, and
latency. Our compact models effectively emulate the original SDXL by
capitalizing on transferred knowledge, achieving competitive results against
larger multi-billion parameter SDXL. Our work underscores the efficacy of
knowledge distillation coupled with layer-level losses in reducing model size
while preserving the high-quality generative capabilities of SDXL, thus
facilitating more accessible deployment in resource-constrained environments.