Прогрессивное дистилляция знаний Stable Diffusion XL с использованием потери на уровне слоев
Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss
January 5, 2024
Авторы: Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul, Patrick Von Platen
cs.AI
Аннотация
Stable Diffusion XL (SDXL) стал лучшей открытой моделью для преобразования текста в изображение (T2I) благодаря своей универсальности и превосходному качеству изображений. Эффективное решение вычислительных требований моделей SDXL имеет решающее значение для их более широкого распространения и применимости. В данной работе мы представляем два уменьшенных варианта — Segmind Stable Diffusion (SSD-1B) и Segmind-Vega, с U-Net, содержащими 1,3 млрд и 0,74 млрд параметров соответственно, достигнутые за счет прогрессивного удаления слоев с использованием потерь на уровне слоев, направленных на уменьшение размера модели при сохранении качества генерации. Мы публикуем веса этих моделей по адресу https://hf.co/Segmind. Наша методология включает удаление остаточных сетей и трансформерных блоков из структуры U-Net SDXL, что приводит к значительному сокращению параметров и задержек. Наши компактные модели эффективно имитируют оригинальный SDXL, используя перенесенные знания, и достигают конкурентоспособных результатов по сравнению с более крупными многомиллиардными моделями SDXL. Наша работа подчеркивает эффективность дистилляции знаний в сочетании с потерями на уровне слоев для уменьшения размера модели при сохранении высококачественных генеративных возможностей SDXL, что способствует более доступному развертыванию в условиях ограниченных ресурсов.
English
Stable Diffusion XL (SDXL) has become the best open source text-to-image
model (T2I) for its versatility and top-notch image quality. Efficiently
addressing the computational demands of SDXL models is crucial for wider reach
and applicability. In this work, we introduce two scaled-down variants, Segmind
Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter
UNets, respectively, achieved through progressive removal using layer-level
losses focusing on reducing the model size while preserving generative quality.
We release these models weights at https://hf.co/Segmind. Our methodology
involves the elimination of residual networks and transformer blocks from the
U-Net structure of SDXL, resulting in significant reductions in parameters, and
latency. Our compact models effectively emulate the original SDXL by
capitalizing on transferred knowledge, achieving competitive results against
larger multi-billion parameter SDXL. Our work underscores the efficacy of
knowledge distillation coupled with layer-level losses in reducing model size
while preserving the high-quality generative capabilities of SDXL, thus
facilitating more accessible deployment in resource-constrained environments.