DomainStudio: Ajuste Fino de Modelos de Difusão para Geração de Imagens Orientada a Domínios com Dados Limitados

Resumo

Modelos probabilísticos de difusão de denoising (DDPMs) têm se mostrado capazes de sintetizar imagens de alta qualidade com uma diversidade notável quando treinados em grandes quantidades de dados. Modelos de difusão típicos e modelos generativos condicionais modernos em larga escala, como modelos de geração de texto para imagem, são vulneráveis a overfitting quando ajustados com dados extremamente limitados. Trabalhos existentes exploraram a geração orientada por sujeitos usando um conjunto de referência contendo algumas imagens. No entanto, poucos trabalhos anteriores exploram a geração orientada por domínio baseada em DDPMs, que visa aprender as características comuns de domínios-alvo enquanto mantém a diversidade. Este artigo propõe uma nova abordagem chamada DomainStudio para adaptar DDPMs pré-treinados em grandes conjuntos de dados de origem para domínios-alvo usando dados limitados. Ela foi projetada para manter a diversidade de sujeitos fornecida pelos domínios de origem e obter amostras adaptadas de alta qualidade e diversificadas em domínios-alvo. Propomos manter as distâncias relativas entre as amostras adaptadas para alcançar uma diversidade de geração considerável. Além disso, aprimoramos ainda mais o aprendizado de detalhes de alta frequência para melhorar a qualidade da geração. Nossa abordagem é compatível com modelos de difusão tanto incondicionais quanto condicionais. Este trabalho faz a primeira tentativa de realizar a geração de imagens incondicional com poucas amostras usando modelos de difusão, alcançando melhor qualidade e maior diversidade do que as abordagens atuais baseadas em GANs. Além disso, este trabalho também alivia significativamente o overfitting para geração condicional e realiza geração orientada por domínio de alta qualidade, expandindo ainda mais os cenários aplicáveis dos modernos modelos de texto para imagem em larga escala.

English

Denoising diffusion probabilistic models (DDPMs) have been proven capable of synthesizing high-quality images with remarkable diversity when trained on large amounts of data. Typical diffusion models and modern large-scale conditional generative models like text-to-image generative models are vulnerable to overfitting when fine-tuned on extremely limited data. Existing works have explored subject-driven generation using a reference set containing a few images. However, few prior works explore DDPM-based domain-driven generation, which aims to learn the common features of target domains while maintaining diversity. This paper proposes a novel DomainStudio approach to adapt DDPMs pre-trained on large-scale source datasets to target domains using limited data. It is designed to keep the diversity of subjects provided by source domains and get high-quality and diverse adapted samples in target domains. We propose to keep the relative distances between adapted samples to achieve considerable generation diversity. In addition, we further enhance the learning of high-frequency details for better generation quality. Our approach is compatible with both unconditional and conditional diffusion models. This work makes the first attempt to realize unconditional few-shot image generation with diffusion models, achieving better quality and greater diversity than current state-of-the-art GAN-based approaches. Moreover, this work also significantly relieves overfitting for conditional generation and realizes high-quality domain-driven generation, further expanding the applicable scenarios of modern large-scale text-to-image models.

DomainStudio: Ajuste Fino de Modelos de Difusão para Geração de Imagens Orientada a Domínios com Dados Limitados

DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data

Resumo

Support