DomainStudio: Ajuste fino de modelos de difusión para la generación de imágenes orientada a dominios utilizando datos limitados
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data
June 25, 2023
Autores: Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan
cs.AI
Resumen
Los modelos probabilísticos de difusión para eliminación de ruido (DDPMs, por sus siglas en inglés) han demostrado ser capaces de sintetizar imágenes de alta calidad con una diversidad notable cuando se entrenan con grandes volúmenes de datos. Los modelos de difusión típicos y los modelos generativos condicionales modernos a gran escala, como los modelos generativos de texto a imagen, son vulnerables al sobreajuste cuando se ajustan con datos extremadamente limitados. Trabajos existentes han explorado la generación guiada por sujetos utilizando un conjunto de referencia que contiene unas pocas imágenes. Sin embargo, pocos estudios previos exploran la generación guiada por dominios basada en DDPMs, cuyo objetivo es aprender las características comunes de los dominios objetivo mientras se mantiene la diversidad. Este artículo propone un enfoque novedoso llamado DomainStudio para adaptar DDPMs preentrenados en conjuntos de datos fuente a gran escala a dominios objetivo utilizando datos limitados. Está diseñado para preservar la diversidad de sujetos proporcionada por los dominios fuente y obtener muestras adaptadas de alta calidad y diversidad en los dominios objetivo. Proponemos mantener las distancias relativas entre las muestras adaptadas para lograr una diversidad generativa considerable. Además, mejoramos aún más el aprendizaje de detalles de alta frecuencia para una mejor calidad de generación. Nuestro enfoque es compatible tanto con modelos de difusión no condicionales como condicionales. Este trabajo realiza el primer intento de lograr generación de imágenes no condicional con pocos ejemplos utilizando modelos de difusión, alcanzando una calidad superior y una mayor diversidad que los enfoques actuales basados en GAN. Además, este trabajo también alivia significativamente el sobreajuste en la generación condicional y logra una generación guiada por dominios de alta calidad, ampliando aún más los escenarios aplicables de los modelos modernos de texto a imagen a gran escala.
English
Denoising diffusion probabilistic models (DDPMs) have been proven capable of
synthesizing high-quality images with remarkable diversity when trained on
large amounts of data. Typical diffusion models and modern large-scale
conditional generative models like text-to-image generative models are
vulnerable to overfitting when fine-tuned on extremely limited data. Existing
works have explored subject-driven generation using a reference set containing
a few images. However, few prior works explore DDPM-based domain-driven
generation, which aims to learn the common features of target domains while
maintaining diversity. This paper proposes a novel DomainStudio approach to
adapt DDPMs pre-trained on large-scale source datasets to target domains using
limited data. It is designed to keep the diversity of subjects provided by
source domains and get high-quality and diverse adapted samples in target
domains. We propose to keep the relative distances between adapted samples to
achieve considerable generation diversity. In addition, we further enhance the
learning of high-frequency details for better generation quality. Our approach
is compatible with both unconditional and conditional diffusion models. This
work makes the first attempt to realize unconditional few-shot image generation
with diffusion models, achieving better quality and greater diversity than
current state-of-the-art GAN-based approaches. Moreover, this work also
significantly relieves overfitting for conditional generation and realizes
high-quality domain-driven generation, further expanding the applicable
scenarios of modern large-scale text-to-image models.