스케일 단위의 확산 모델 증류
Scale-wise Distillation of Diffusion Models
March 20, 2025
저자: Nikita Starodubcev, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk
cs.AI
초록
우리는 확산 모델(Diffusion Models, DMs)을 위한 스케일별 지식 증류(scale-wise distillation, SwD) 프레임워크를 제안한다. 이 프레임워크는 확산 기반의 소수 스텝 생성기에서 다음 스케일 예측 아이디어를 효과적으로 활용한다. 보다 구체적으로, SwD는 최근 확산 과정과 암묵적 스펙트럼 자기회귀(implicit spectral autoregression) 간의 관계에 대한 통찰에서 영감을 받았다. 우리는 DMs가 더 낮은 데이터 해상도에서 생성 과정을 시작하고, 각 노이즈 제거 단계에서 샘플을 점진적으로 업스케일링하면서도 성능 저하 없이 계산 비용을 크게 줄일 수 있다고 가정한다. SwD는 이러한 아이디어를 기존의 분포 매칭(distribution matching) 기반 확산 증류 방법에 자연스럽게 통합한다. 또한, 우리는 대상 분포와 더 세밀한 유사성을 강제하는 새로운 패치 손실(patch loss)을 도입하여 분포 매칭 접근법의 범위를 확장한다. 최신 텍스트-이미지 확산 모델에 적용했을 때, SwD는 두 번의 전체 해상도 스텝에 해당하는 추론 시간에 근접하며, 동일한 계산 예산 하에서 경쟁 모델들을 크게 능가한다. 이는 자동화된 메트릭과 인간 선호도 연구를 통해 입증되었다.
English
We present SwD, a scale-wise distillation framework for diffusion models
(DMs), which effectively employs next-scale prediction ideas for
diffusion-based few-step generators. In more detail, SwD is inspired by the
recent insights relating diffusion processes to the implicit spectral
autoregression. We suppose that DMs can initiate generation at lower data
resolutions and gradually upscale the samples at each denoising step without
loss in performance while significantly reducing computational costs. SwD
naturally integrates this idea into existing diffusion distillation methods
based on distribution matching. Also, we enrich the family of distribution
matching approaches by introducing a novel patch loss enforcing finer-grained
similarity to the target distribution. When applied to state-of-the-art
text-to-image diffusion models, SwD approaches the inference times of two full
resolution steps and significantly outperforms the counterparts under the same
computation budget, as evidenced by automated metrics and human preference
studies.Summary
AI-Generated Summary