DomainStudio: Ajuste Fino de Modelos de Difusão para Geração de Imagens Orientada a Domínios com Dados Limitados
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data
June 25, 2023
Autores: Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan
cs.AI
Resumo
Modelos probabilísticos de difusão de denoising (DDPMs) têm se mostrado capazes de sintetizar imagens de alta qualidade com uma diversidade notável quando treinados em grandes quantidades de dados. Modelos de difusão típicos e modelos generativos condicionais modernos em larga escala, como modelos de geração de texto para imagem, são vulneráveis a overfitting quando ajustados com dados extremamente limitados. Trabalhos existentes exploraram a geração orientada por sujeitos usando um conjunto de referência contendo algumas imagens. No entanto, poucos trabalhos anteriores exploram a geração orientada por domínio baseada em DDPMs, que visa aprender as características comuns de domínios-alvo enquanto mantém a diversidade. Este artigo propõe uma nova abordagem chamada DomainStudio para adaptar DDPMs pré-treinados em grandes conjuntos de dados de origem para domínios-alvo usando dados limitados. Ela foi projetada para manter a diversidade de sujeitos fornecida pelos domínios de origem e obter amostras adaptadas de alta qualidade e diversificadas em domínios-alvo. Propomos manter as distâncias relativas entre as amostras adaptadas para alcançar uma diversidade de geração considerável. Além disso, aprimoramos ainda mais o aprendizado de detalhes de alta frequência para melhorar a qualidade da geração. Nossa abordagem é compatível com modelos de difusão tanto incondicionais quanto condicionais. Este trabalho faz a primeira tentativa de realizar a geração de imagens incondicional com poucas amostras usando modelos de difusão, alcançando melhor qualidade e maior diversidade do que as abordagens atuais baseadas em GANs. Além disso, este trabalho também alivia significativamente o overfitting para geração condicional e realiza geração orientada por domínio de alta qualidade, expandindo ainda mais os cenários aplicáveis dos modernos modelos de texto para imagem em larga escala.
English
Denoising diffusion probabilistic models (DDPMs) have been proven capable of
synthesizing high-quality images with remarkable diversity when trained on
large amounts of data. Typical diffusion models and modern large-scale
conditional generative models like text-to-image generative models are
vulnerable to overfitting when fine-tuned on extremely limited data. Existing
works have explored subject-driven generation using a reference set containing
a few images. However, few prior works explore DDPM-based domain-driven
generation, which aims to learn the common features of target domains while
maintaining diversity. This paper proposes a novel DomainStudio approach to
adapt DDPMs pre-trained on large-scale source datasets to target domains using
limited data. It is designed to keep the diversity of subjects provided by
source domains and get high-quality and diverse adapted samples in target
domains. We propose to keep the relative distances between adapted samples to
achieve considerable generation diversity. In addition, we further enhance the
learning of high-frequency details for better generation quality. Our approach
is compatible with both unconditional and conditional diffusion models. This
work makes the first attempt to realize unconditional few-shot image generation
with diffusion models, achieving better quality and greater diversity than
current state-of-the-art GAN-based approaches. Moreover, this work also
significantly relieves overfitting for conditional generation and realizes
high-quality domain-driven generation, further expanding the applicable
scenarios of modern large-scale text-to-image models.