BOOT: 부트스트래핑을 통한 디노이징 디퓨전 모델의 데이터 프리 지식 증류
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping
June 8, 2023
저자: Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Lingjie Liu, Josh Susskind
cs.AI
초록
확산 모델(Diffusion Model)은 다양한 이미지를 생성하는 데 있어 뛰어난 잠재력을 보여주고 있습니다. 그러나 반복적인 노이즈 제거 과정으로 인해 생성 속도가 느리다는 단점이 있습니다. 최근 지식 증류(Knowledge Distillation)가 이러한 문제를 해결하기 위해 제안되었으며, 이는 품질 저하 없이 추론 단계를 하나 또는 소수로 줄일 수 있는 방법입니다. 하지만 기존의 증류 방법들은 교사 모델(Teacher Model)로부터 합성 훈련 데이터를 생성하기 위해 상당한 오프라인 계산을 필요로 하거나, 실제 데이터를 활용한 고비용의 온라인 학습을 수행해야 합니다. 본 연구에서는 이러한 한계를 극복하기 위해 BOOT라는 새로운 기법을 제안합니다. 이는 효율적인 데이터 없는(Data-Free) 증류 알고리즘을 기반으로 합니다. 핵심 아이디어는 미리 학습된 확산 모델 교사가 주어진 시간 단계에서 출력하는 결과를 예측하는 시간 조건부 모델(Time-Conditioned Model)을 학습하는 것입니다. 이러한 모델은 두 개의 연속적인 샘플링 단계로부터 부트스트래핑(Bootstrapping)을 통해 효율적으로 훈련될 수 있습니다. 또한, 본 방법은 대규모 텍스트-이미지 확산 모델에도 쉽게 적용할 수 있으며, 이는 기존 방법들이 대규모 훈련 데이터셋에 접근하기 어려운 점을 고려할 때 중요한 장점입니다. 우리는 DDIM 설정에서 여러 벤치마크 데이터셋에 대해 제안된 접근법의 효과를 입증하였으며, 확산 모델 교사보다 수 배 빠른 속도로 비슷한 수준의 생성 품질을 달성했습니다. 텍스트-이미지 생성 결과는 제안된 방법이 매우 복잡한 분포도 처리할 수 있음을 보여주며, 더 효율적인 생성 모델링에 대한 가능성을 제시합니다.
English
Diffusion models have demonstrated excellent potential for generating diverse
images. However, their performance often suffers from slow generation due to
iterative denoising. Knowledge distillation has been recently proposed as a
remedy that can reduce the number of inference steps to one or a few without
significant quality degradation. However, existing distillation methods either
require significant amounts of offline computation for generating synthetic
training data from the teacher model or need to perform expensive online
learning with the help of real data. In this work, we present a novel technique
called BOOT, that overcomes these limitations with an efficient data-free
distillation algorithm. The core idea is to learn a time-conditioned model that
predicts the output of a pre-trained diffusion model teacher given any time
step. Such a model can be efficiently trained based on bootstrapping from two
consecutive sampled steps. Furthermore, our method can be easily adapted to
large-scale text-to-image diffusion models, which are challenging for
conventional methods given the fact that the training sets are often large and
difficult to access. We demonstrate the effectiveness of our approach on
several benchmark datasets in the DDIM setting, achieving comparable generation
quality while being orders of magnitude faster than the diffusion teacher. The
text-to-image results show that the proposed approach is able to handle highly
complex distributions, shedding light on more efficient generative modeling.