DomainStudio: Feinabstimmung von Diffusionsmodellen für domänengetriebene Bildgenerierung mit begrenzten Daten
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data
June 25, 2023
Autoren: Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan
cs.AI
Zusammenfassung
Denoising Diffusion Probabilistic Models (DDPMs) haben sich als fähig erwiesen, hochwertige Bilder mit bemerkenswerter Vielfalt zu synthetisieren, wenn sie mit großen Datenmengen trainiert werden. Typische Diffusionsmodelle und moderne großskalierte bedingte generative Modelle wie Text-zu-Bild-generative Modelle sind jedoch anfällig für Überanpassung, wenn sie mit extrem begrenzten Daten feinjustiert werden. Bisherige Arbeiten haben die subjektgetriebene Generierung unter Verwendung eines Referenzsatzes mit wenigen Bildern untersucht. Allerdings gibt es nur wenige frühere Arbeiten, die sich mit der DDPM-basierten domänengetriebenen Generierung befassen, die darauf abzielt, die gemeinsamen Merkmale von Zielbereichen zu erlernen und gleichzeitig die Vielfalt zu bewahren. In diesem Artikel wird ein neuartiger DomainStudio-Ansatz vorgeschlagen, um DDPMs, die auf großskalierten Quelldatensätzen vortrainiert wurden, mit begrenzten Daten an Zielbereiche anzupassen. Dieser Ansatz ist darauf ausgelegt, die Vielfalt der von den Quelldomänen bereitgestellten Subjekte zu bewahren und hochwertige sowie vielfältige angepasste Stichproben in den Zielbereichen zu erzeugen. Wir schlagen vor, die relativen Abstände zwischen den angepassten Stichproben beizubehalten, um eine beträchtliche Generierungsvielfalt zu erreichen. Darüber hinaus verbessern wir das Lernen von hochfrequenten Details, um eine bessere Generierungsqualität zu erzielen. Unser Ansatz ist sowohl mit unbedingten als auch mit bedingten Diffusionsmodellen kompatibel. Diese Arbeit unternimmt den ersten Versuch, eine unbedingte Few-Shot-Bildgenerierung mit Diffusionsmodellen zu realisieren, wobei eine bessere Qualität und größere Vielfalt als bei aktuellen state-of-the-art GAN-basierten Ansätzen erreicht wird. Darüber hinaus lindert diese Arbeit auch signifikant die Überanpassung bei der bedingten Generierung und ermöglicht eine hochwertige domänengetriebene Generierung, wodurch die anwendbaren Szenarien moderner großskalierter Text-zu-Bild-Modelle weiter ausgebaut werden.
English
Denoising diffusion probabilistic models (DDPMs) have been proven capable of
synthesizing high-quality images with remarkable diversity when trained on
large amounts of data. Typical diffusion models and modern large-scale
conditional generative models like text-to-image generative models are
vulnerable to overfitting when fine-tuned on extremely limited data. Existing
works have explored subject-driven generation using a reference set containing
a few images. However, few prior works explore DDPM-based domain-driven
generation, which aims to learn the common features of target domains while
maintaining diversity. This paper proposes a novel DomainStudio approach to
adapt DDPMs pre-trained on large-scale source datasets to target domains using
limited data. It is designed to keep the diversity of subjects provided by
source domains and get high-quality and diverse adapted samples in target
domains. We propose to keep the relative distances between adapted samples to
achieve considerable generation diversity. In addition, we further enhance the
learning of high-frequency details for better generation quality. Our approach
is compatible with both unconditional and conditional diffusion models. This
work makes the first attempt to realize unconditional few-shot image generation
with diffusion models, achieving better quality and greater diversity than
current state-of-the-art GAN-based approaches. Moreover, this work also
significantly relieves overfitting for conditional generation and realizes
high-quality domain-driven generation, further expanding the applicable
scenarios of modern large-scale text-to-image models.