DomainStudio: Fijnafstemming van diffusiemodellen voor domeingestuurde beeldgeneratie met beperkte data
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data
June 25, 2023
Auteurs: Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan
cs.AI
Samenvatting
Denoising diffusion probabilistische modellen (DDPMs) hebben bewezen in staat te zijn om hoogwaardige afbeeldingen met opmerkelijke diversiteit te synthetiseren wanneer ze getraind worden op grote hoeveelheden data. Typische diffusiemodellen en moderne grootschalige conditionele generatieve modellen, zoals tekst-naar-afbeelding generatieve modellen, zijn kwetsbaar voor overfitting wanneer ze worden afgestemd op extreem beperkte data. Bestaande werken hebben onderwerpgedreven generatie onderzocht met behulp van een referentieset die enkele afbeeldingen bevat. Echter, weinig eerdere werken onderzoeken domeingedreven generatie op basis van DDPMs, wat gericht is op het leren van de gemeenschappelijke kenmerken van doeldomeinen terwijl diversiteit behouden blijft. Dit artikel stelt een nieuwe DomainStudio-aanpak voor om DDPMs die vooraf getraind zijn op grootschalige brondatasets aan te passen aan doeldomeinen met beperkte data. Het is ontworpen om de diversiteit van onderwerpen die door brondomeinen worden geboden te behouden en hoogwaardige en diverse aangepaste samples in doeldomeinen te verkrijgen. Wij stellen voor om de relatieve afstanden tussen aangepaste samples te behouden om aanzienlijke generatiediversiteit te bereiken. Daarnaast verbeteren we het leren van hoogfrequente details verder voor een betere generatiekwaliteit. Onze aanpak is compatibel met zowel onvoorwaardelijke als conditionele diffusiemodellen. Dit werk maakt de eerste poging om onvoorwaardelijke few-shot beeldgeneratie te realiseren met diffusiemodellen, waarbij betere kwaliteit en grotere diversiteit worden bereikt dan de huidige state-of-the-art GAN-gebaseerde benaderingen. Bovendien verlicht dit werk ook aanzienlijk overfitting voor conditionele generatie en realiseert het hoogwaardige domeingedreven generatie, waardoor de toepasbare scenario's van moderne grootschalige tekst-naar-afbeelding modellen verder worden uitgebreid.
English
Denoising diffusion probabilistic models (DDPMs) have been proven capable of
synthesizing high-quality images with remarkable diversity when trained on
large amounts of data. Typical diffusion models and modern large-scale
conditional generative models like text-to-image generative models are
vulnerable to overfitting when fine-tuned on extremely limited data. Existing
works have explored subject-driven generation using a reference set containing
a few images. However, few prior works explore DDPM-based domain-driven
generation, which aims to learn the common features of target domains while
maintaining diversity. This paper proposes a novel DomainStudio approach to
adapt DDPMs pre-trained on large-scale source datasets to target domains using
limited data. It is designed to keep the diversity of subjects provided by
source domains and get high-quality and diverse adapted samples in target
domains. We propose to keep the relative distances between adapted samples to
achieve considerable generation diversity. In addition, we further enhance the
learning of high-frequency details for better generation quality. Our approach
is compatible with both unconditional and conditional diffusion models. This
work makes the first attempt to realize unconditional few-shot image generation
with diffusion models, achieving better quality and greater diversity than
current state-of-the-art GAN-based approaches. Moreover, this work also
significantly relieves overfitting for conditional generation and realizes
high-quality domain-driven generation, further expanding the applicable
scenarios of modern large-scale text-to-image models.