DomainStudio: Ajuste fino de modelos de difusión para la generación de imágenes orientada a dominios utilizando datos limitados

Resumen

Los modelos probabilísticos de difusión para eliminación de ruido (DDPMs, por sus siglas en inglés) han demostrado ser capaces de sintetizar imágenes de alta calidad con una diversidad notable cuando se entrenan con grandes volúmenes de datos. Los modelos de difusión típicos y los modelos generativos condicionales modernos a gran escala, como los modelos generativos de texto a imagen, son vulnerables al sobreajuste cuando se ajustan con datos extremadamente limitados. Trabajos existentes han explorado la generación guiada por sujetos utilizando un conjunto de referencia que contiene unas pocas imágenes. Sin embargo, pocos estudios previos exploran la generación guiada por dominios basada en DDPMs, cuyo objetivo es aprender las características comunes de los dominios objetivo mientras se mantiene la diversidad. Este artículo propone un enfoque novedoso llamado DomainStudio para adaptar DDPMs preentrenados en conjuntos de datos fuente a gran escala a dominios objetivo utilizando datos limitados. Está diseñado para preservar la diversidad de sujetos proporcionada por los dominios fuente y obtener muestras adaptadas de alta calidad y diversidad en los dominios objetivo. Proponemos mantener las distancias relativas entre las muestras adaptadas para lograr una diversidad generativa considerable. Además, mejoramos aún más el aprendizaje de detalles de alta frecuencia para una mejor calidad de generación. Nuestro enfoque es compatible tanto con modelos de difusión no condicionales como condicionales. Este trabajo realiza el primer intento de lograr generación de imágenes no condicional con pocos ejemplos utilizando modelos de difusión, alcanzando una calidad superior y una mayor diversidad que los enfoques actuales basados en GAN. Además, este trabajo también alivia significativamente el sobreajuste en la generación condicional y logra una generación guiada por dominios de alta calidad, ampliando aún más los escenarios aplicables de los modelos modernos de texto a imagen a gran escala.

English

Denoising diffusion probabilistic models (DDPMs) have been proven capable of synthesizing high-quality images with remarkable diversity when trained on large amounts of data. Typical diffusion models and modern large-scale conditional generative models like text-to-image generative models are vulnerable to overfitting when fine-tuned on extremely limited data. Existing works have explored subject-driven generation using a reference set containing a few images. However, few prior works explore DDPM-based domain-driven generation, which aims to learn the common features of target domains while maintaining diversity. This paper proposes a novel DomainStudio approach to adapt DDPMs pre-trained on large-scale source datasets to target domains using limited data. It is designed to keep the diversity of subjects provided by source domains and get high-quality and diverse adapted samples in target domains. We propose to keep the relative distances between adapted samples to achieve considerable generation diversity. In addition, we further enhance the learning of high-frequency details for better generation quality. Our approach is compatible with both unconditional and conditional diffusion models. This work makes the first attempt to realize unconditional few-shot image generation with diffusion models, achieving better quality and greater diversity than current state-of-the-art GAN-based approaches. Moreover, this work also significantly relieves overfitting for conditional generation and realizes high-quality domain-driven generation, further expanding the applicable scenarios of modern large-scale text-to-image models.

DomainStudio: Ajuste fino de modelos de difusión para la generación de imágenes orientada a dominios utilizando datos limitados

DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data

Resumen

Support