DomainStudio: Ottimizzazione Fine dei Modelli di Diffusione per la Generazione di Immagini Guidata dal Dominio Utilizzando Dati Limitati

Abstract

I modelli probabilistici di diffusione con denoising (DDPM) si sono dimostrati in grado di sintetizzare immagini di alta qualità con una notevole diversità quando addestrati su grandi quantità di dati. I tipici modelli di diffusione e i moderni modelli generativi condizionati su larga scala, come i modelli generativi testo-immagine, sono vulnerabili all'overfitting quando vengono ottimizzati su dati estremamente limitati. Alcuni lavori esistenti hanno esplorato la generazione guidata da soggetti utilizzando un set di riferimento contenente poche immagini. Tuttavia, pochi studi precedenti hanno esplorato la generazione guidata da dominio basata su DDPM, che mira a apprendere le caratteristiche comuni dei domini target mantenendo la diversità. Questo articolo propone un nuovo approccio chiamato DomainStudio per adattare i DDPM pre-addestrati su grandi dataset sorgente a domini target utilizzando dati limitati. È progettato per mantenere la diversità dei soggetti forniti dai domini sorgente e ottenere campioni adattati di alta qualità e diversificati nei domini target. Proponiamo di mantenere le distanze relative tra i campioni adattati per ottenere una considerevole diversità nella generazione. Inoltre, miglioriamo ulteriormente l'apprendimento dei dettagli ad alta frequenza per una migliore qualità della generazione. Il nostro approccio è compatibile sia con i modelli di diffusione non condizionati che con quelli condizionati. Questo lavoro rappresenta il primo tentativo di realizzare la generazione di immagini few-shot non condizionata con modelli di diffusione, ottenendo una qualità migliore e una maggiore diversità rispetto agli approcci basati su GAN attualmente all'avanguardia. Inoltre, questo lavoro allevia significativamente l'overfitting per la generazione condizionata e realizza una generazione guidata da dominio di alta qualità, ampliando ulteriormente gli scenari applicabili dei moderni modelli testo-immagine su larga scala.

English

Denoising diffusion probabilistic models (DDPMs) have been proven capable of synthesizing high-quality images with remarkable diversity when trained on large amounts of data. Typical diffusion models and modern large-scale conditional generative models like text-to-image generative models are vulnerable to overfitting when fine-tuned on extremely limited data. Existing works have explored subject-driven generation using a reference set containing a few images. However, few prior works explore DDPM-based domain-driven generation, which aims to learn the common features of target domains while maintaining diversity. This paper proposes a novel DomainStudio approach to adapt DDPMs pre-trained on large-scale source datasets to target domains using limited data. It is designed to keep the diversity of subjects provided by source domains and get high-quality and diverse adapted samples in target domains. We propose to keep the relative distances between adapted samples to achieve considerable generation diversity. In addition, we further enhance the learning of high-frequency details for better generation quality. Our approach is compatible with both unconditional and conditional diffusion models. This work makes the first attempt to realize unconditional few-shot image generation with diffusion models, achieving better quality and greater diversity than current state-of-the-art GAN-based approaches. Moreover, this work also significantly relieves overfitting for conditional generation and realizes high-quality domain-driven generation, further expanding the applicable scenarios of modern large-scale text-to-image models.

DomainStudio: Ottimizzazione Fine dei Modelli di Diffusione per la Generazione di Immagini Guidata dal Dominio Utilizzando Dati Limitati

DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data

Abstract

Support