Distilación Progresiva de Conocimiento de Stable Diffusion XL mediante Pérdida a Nivel de Capa

Resumen

Stable Diffusion XL (SDXL) se ha convertido en el mejor modelo de texto a imagen (T2I) de código abierto por su versatilidad y calidad de imagen de primer nivel. Abordar de manera eficiente las demandas computacionales de los modelos SDXL es crucial para una mayor accesibilidad y aplicabilidad. En este trabajo, presentamos dos variantes reducidas, Segmind Stable Diffusion (SSD-1B) y Segmind-Vega, con UNets de 1.3B y 0.74B parámetros, respectivamente, logradas mediante la eliminación progresiva utilizando pérdidas a nivel de capa, enfocadas en reducir el tamaño del modelo mientras se preserva la calidad generativa. Publicamos los pesos de estos modelos en https://hf.co/Segmind. Nuestra metodología implica la eliminación de redes residuales y bloques transformadores de la estructura U-Net de SDXL, lo que resulta en reducciones significativas en parámetros y latencia. Nuestros modelos compactos emulan eficazmente el SDXL original al aprovechar el conocimiento transferido, logrando resultados competitivos frente a SDXL más grandes con miles de millones de parámetros. Nuestro trabajo subraya la eficacia de la destilación de conocimiento combinada con pérdidas a nivel de capa para reducir el tamaño del modelo mientras se preservan las capacidades generativas de alta calidad de SDXL, facilitando así una implementación más accesible en entornos con recursos limitados.

English

Stable Diffusion XL (SDXL) has become the best open source text-to-image model (T2I) for its versatility and top-notch image quality. Efficiently addressing the computational demands of SDXL models is crucial for wider reach and applicability. In this work, we introduce two scaled-down variants, Segmind Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter UNets, respectively, achieved through progressive removal using layer-level losses focusing on reducing the model size while preserving generative quality. We release these models weights at https://hf.co/Segmind. Our methodology involves the elimination of residual networks and transformer blocks from the U-Net structure of SDXL, resulting in significant reductions in parameters, and latency. Our compact models effectively emulate the original SDXL by capitalizing on transferred knowledge, achieving competitive results against larger multi-billion parameter SDXL. Our work underscores the efficacy of knowledge distillation coupled with layer-level losses in reducing model size while preserving the high-quality generative capabilities of SDXL, thus facilitating more accessible deployment in resource-constrained environments.

Distilación Progresiva de Conocimiento de Stable Diffusion XL mediante Pérdida a Nivel de Capa

Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss

Resumen

Support