DomainStudio: Ottimizzazione Fine dei Modelli di Diffusione per la Generazione di Immagini Guidata dal Dominio Utilizzando Dati Limitati
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data
June 25, 2023
Autori: Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan
cs.AI
Abstract
I modelli probabilistici di diffusione con denoising (DDPM) si sono dimostrati in grado di sintetizzare immagini di alta qualità con una notevole diversità quando addestrati su grandi quantità di dati. I tipici modelli di diffusione e i moderni modelli generativi condizionati su larga scala, come i modelli generativi testo-immagine, sono vulnerabili all'overfitting quando vengono ottimizzati su dati estremamente limitati. Alcuni lavori esistenti hanno esplorato la generazione guidata da soggetti utilizzando un set di riferimento contenente poche immagini. Tuttavia, pochi studi precedenti hanno esplorato la generazione guidata da dominio basata su DDPM, che mira a apprendere le caratteristiche comuni dei domini target mantenendo la diversità. Questo articolo propone un nuovo approccio chiamato DomainStudio per adattare i DDPM pre-addestrati su grandi dataset sorgente a domini target utilizzando dati limitati. È progettato per mantenere la diversità dei soggetti forniti dai domini sorgente e ottenere campioni adattati di alta qualità e diversificati nei domini target. Proponiamo di mantenere le distanze relative tra i campioni adattati per ottenere una considerevole diversità nella generazione. Inoltre, miglioriamo ulteriormente l'apprendimento dei dettagli ad alta frequenza per una migliore qualità della generazione. Il nostro approccio è compatibile sia con i modelli di diffusione non condizionati che con quelli condizionati. Questo lavoro rappresenta il primo tentativo di realizzare la generazione di immagini few-shot non condizionata con modelli di diffusione, ottenendo una qualità migliore e una maggiore diversità rispetto agli approcci basati su GAN attualmente all'avanguardia. Inoltre, questo lavoro allevia significativamente l'overfitting per la generazione condizionata e realizza una generazione guidata da dominio di alta qualità, ampliando ulteriormente gli scenari applicabili dei moderni modelli testo-immagine su larga scala.
English
Denoising diffusion probabilistic models (DDPMs) have been proven capable of
synthesizing high-quality images with remarkable diversity when trained on
large amounts of data. Typical diffusion models and modern large-scale
conditional generative models like text-to-image generative models are
vulnerable to overfitting when fine-tuned on extremely limited data. Existing
works have explored subject-driven generation using a reference set containing
a few images. However, few prior works explore DDPM-based domain-driven
generation, which aims to learn the common features of target domains while
maintaining diversity. This paper proposes a novel DomainStudio approach to
adapt DDPMs pre-trained on large-scale source datasets to target domains using
limited data. It is designed to keep the diversity of subjects provided by
source domains and get high-quality and diverse adapted samples in target
domains. We propose to keep the relative distances between adapted samples to
achieve considerable generation diversity. In addition, we further enhance the
learning of high-frequency details for better generation quality. Our approach
is compatible with both unconditional and conditional diffusion models. This
work makes the first attempt to realize unconditional few-shot image generation
with diffusion models, achieving better quality and greater diversity than
current state-of-the-art GAN-based approaches. Moreover, this work also
significantly relieves overfitting for conditional generation and realizes
high-quality domain-driven generation, further expanding the applicable
scenarios of modern large-scale text-to-image models.