DomainStudio : Affinage de modèles de diffusion pour la génération d'images spécifiques à un domaine avec des données limitées
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data
June 25, 2023
Auteurs: Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan
cs.AI
Résumé
Les modèles probabilistes de diffusion avec débruitage (DDPM) se sont avérés capables de synthétiser des images de haute qualité avec une diversité remarquable lorsqu'ils sont entraînés sur de grandes quantités de données. Les modèles de diffusion typiques et les modèles génératifs conditionnels modernes à grande échelle, comme les modèles génératifs texte-image, sont vulnérables au surapprentissage lorsqu'ils sont affinés sur des données extrêmement limitées. Les travaux existants ont exploré la génération pilotée par sujet en utilisant un ensemble de référence contenant quelques images. Cependant, peu de travaux antérieurs explorent la génération pilotée par domaine basée sur les DDPM, qui vise à apprendre les caractéristiques communes des domaines cibles tout en maintenant la diversité. Cet article propose une nouvelle approche appelée DomainStudio pour adapter les DDPM pré-entraînés sur des ensembles de données sources à grande échelle à des domaines cibles en utilisant des données limitées. Elle est conçue pour préserver la diversité des sujets fournis par les domaines sources et obtenir des échantillons adaptés de haute qualité et diversifiés dans les domaines cibles. Nous proposons de maintenir les distances relatives entre les échantillons adaptés pour atteindre une diversité de génération considérable. De plus, nous améliorons davantage l'apprentissage des détails haute fréquence pour une meilleure qualité de génération. Notre approche est compatible avec les modèles de diffusion conditionnels et non conditionnels. Ce travail constitue la première tentative de réaliser une génération d'images non conditionnelle en few-shot avec des modèles de diffusion, atteignant une meilleure qualité et une plus grande diversité que les approches actuelles basées sur les GAN. Par ailleurs, ce travail atténue également de manière significative le surapprentissage pour la génération conditionnelle et réalise une génération pilotée par domaine de haute qualité, élargissant ainsi les scénarios applicables des modèles texte-image modernes à grande échelle.
English
Denoising diffusion probabilistic models (DDPMs) have been proven capable of
synthesizing high-quality images with remarkable diversity when trained on
large amounts of data. Typical diffusion models and modern large-scale
conditional generative models like text-to-image generative models are
vulnerable to overfitting when fine-tuned on extremely limited data. Existing
works have explored subject-driven generation using a reference set containing
a few images. However, few prior works explore DDPM-based domain-driven
generation, which aims to learn the common features of target domains while
maintaining diversity. This paper proposes a novel DomainStudio approach to
adapt DDPMs pre-trained on large-scale source datasets to target domains using
limited data. It is designed to keep the diversity of subjects provided by
source domains and get high-quality and diverse adapted samples in target
domains. We propose to keep the relative distances between adapted samples to
achieve considerable generation diversity. In addition, we further enhance the
learning of high-frequency details for better generation quality. Our approach
is compatible with both unconditional and conditional diffusion models. This
work makes the first attempt to realize unconditional few-shot image generation
with diffusion models, achieving better quality and greater diversity than
current state-of-the-art GAN-based approaches. Moreover, this work also
significantly relieves overfitting for conditional generation and realizes
high-quality domain-driven generation, further expanding the applicable
scenarios of modern large-scale text-to-image models.