ChatPaper.aiChatPaper

레이어 수준 손실을 활용한 Stable Diffusion XL의 점진적 지식 증류

Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss

January 5, 2024
저자: Yatharth Gupta, Vishnu V. Jaddipal, Harish Prabhala, Sayak Paul, Patrick Von Platen
cs.AI

초록

Stable Diffusion XL(SDXL)은 그 다재다능성과 최고 수준의 이미지 품질로 인해 최고의 오픈소스 텍스트-이미지(T2I) 모델로 자리 잡았습니다. SDXL 모델의 계산 요구 사항을 효율적으로 해결하는 것은 더 넓은 범위의 접근성과 적용 가능성을 위해 중요합니다. 본 연구에서는 레이어 수준 손실에 초점을 맞춰 모델 크기를 줄이면서 생성 품질을 유지하는 점진적 제거를 통해 각각 1.3B 및 0.74B 파라미터의 U-Net을 갖춘 두 가지 축소 버전인 Segmind Stable Diffusion(SSD-1B)과 Segmind-Vega를 소개합니다. 우리는 이러한 모델의 가중치를 https://hf.co/Segmind에서 공개합니다. 우리의 방법론은 SDXL의 U-Net 구조에서 잔여 네트워크와 트랜스포머 블록을 제거하여 파라미터와 지연 시간을 크게 줄이는 것을 포함합니다. 우리의 컴팩트 모델은 전이된 지식을 활용하여 원본 SDXL을 효과적으로 모방하며, 더 큰 수십억 파라미터의 SDXL과 경쟁력 있는 결과를 달성합니다. 우리의 연구는 지식 증류와 레이어 수준 손실을 결합하여 모델 크기를 줄이면서 SDXL의 고품질 생성 능력을 유지하는 데 있어 그 효과를 강조하며, 이는 자원이 제한된 환경에서 더 접근 가능한 배포를 가능하게 합니다.
English
Stable Diffusion XL (SDXL) has become the best open source text-to-image model (T2I) for its versatility and top-notch image quality. Efficiently addressing the computational demands of SDXL models is crucial for wider reach and applicability. In this work, we introduce two scaled-down variants, Segmind Stable Diffusion (SSD-1B) and Segmind-Vega, with 1.3B and 0.74B parameter UNets, respectively, achieved through progressive removal using layer-level losses focusing on reducing the model size while preserving generative quality. We release these models weights at https://hf.co/Segmind. Our methodology involves the elimination of residual networks and transformer blocks from the U-Net structure of SDXL, resulting in significant reductions in parameters, and latency. Our compact models effectively emulate the original SDXL by capitalizing on transferred knowledge, achieving competitive results against larger multi-billion parameter SDXL. Our work underscores the efficacy of knowledge distillation coupled with layer-level losses in reducing model size while preserving the high-quality generative capabilities of SDXL, thus facilitating more accessible deployment in resource-constrained environments.
PDF242December 15, 2024