DomainStudio: 제한된 데이터를 활용한 도메인 기반 이미지 생성을 위한 확산 모델 미세 조정
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data
June 25, 2023
저자: Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan
cs.AI
초록
노이즈 제거 확률적 확산 모델(DDPMs)은 대량의 데이터로 학습할 경우 높은 품질과 놀라운 다양성을 지닌 이미지를 합성할 수 있는 능력이 입증되었습니다. 일반적인 확산 모델과 텍스트-이미지 생성 모델과 같은 현대적 대규모 조건부 생성 모델은 극히 제한된 데이터로 미세 조정할 때 과적합에 취약합니다. 기존 연구에서는 몇 장의 이미지로 구성된 참조 세트를 사용하여 주체 기반 생성을 탐구했습니다. 그러나 DDPM 기반 도메인 기반 생성, 즉 대상 도메인의 공통 특징을 학습하면서 다양성을 유지하는 것을 탐구한 선행 연구는 거의 없습니다. 본 논문은 대규모 소스 데이터셋으로 사전 학습된 DDPM을 제한된 데이터를 사용하여 대상 도메인에 적응시키는 새로운 DomainStudio 접근 방식을 제안합니다. 이 접근 방식은 소스 도메인이 제공하는 주체의 다양성을 유지하고 대상 도메인에서 고품질 및 다양한 적응 샘플을 얻기 위해 설계되었습니다. 우리는 상당한 생성 다양성을 달성하기 위해 적응 샘플 간의 상대적 거리를 유지할 것을 제안합니다. 또한, 더 나은 생성 품질을 위해 고주파 세부 사항의 학습을 추가로 강화합니다. 우리의 접근 방식은 무조건 및 조건부 확산 모델 모두와 호환됩니다. 이 연구는 확산 모델을 사용하여 무조건 소수 이미지 생성을 실현하는 첫 번째 시도로, 현재 최첨단 GAN 기반 접근 방식보다 더 나은 품질과 더 큰 다양성을 달성했습니다. 또한, 이 연구는 조건부 생성에서의 과적합을 크게 완화하고 고품질 도메인 기반 생성을 실현함으로써 현대적 대규모 텍스트-이미지 모델의 적용 가능한 시나리오를 더욱 확장합니다.
English
Denoising diffusion probabilistic models (DDPMs) have been proven capable of
synthesizing high-quality images with remarkable diversity when trained on
large amounts of data. Typical diffusion models and modern large-scale
conditional generative models like text-to-image generative models are
vulnerable to overfitting when fine-tuned on extremely limited data. Existing
works have explored subject-driven generation using a reference set containing
a few images. However, few prior works explore DDPM-based domain-driven
generation, which aims to learn the common features of target domains while
maintaining diversity. This paper proposes a novel DomainStudio approach to
adapt DDPMs pre-trained on large-scale source datasets to target domains using
limited data. It is designed to keep the diversity of subjects provided by
source domains and get high-quality and diverse adapted samples in target
domains. We propose to keep the relative distances between adapted samples to
achieve considerable generation diversity. In addition, we further enhance the
learning of high-frequency details for better generation quality. Our approach
is compatible with both unconditional and conditional diffusion models. This
work makes the first attempt to realize unconditional few-shot image generation
with diffusion models, achieving better quality and greater diversity than
current state-of-the-art GAN-based approaches. Moreover, this work also
significantly relieves overfitting for conditional generation and realizes
high-quality domain-driven generation, further expanding the applicable
scenarios of modern large-scale text-to-image models.