DomainStudio: Тонкая настройка диффузионных моделей для генерации изображений, ориентированных на конкретную область, с использованием ограниченных данных
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data
June 25, 2023
Авторы: Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan
cs.AI
Аннотация
Деноизирующие диффузионные вероятностные модели (DDPM) доказали свою способность синтезировать высококачественные изображения с замечательным разнообразием при обучении на больших объемах данных. Однако типичные диффузионные модели и современные крупномасштабные условные генеративные модели, такие как текстово-изобразительные генеративные модели, подвержены переобучению при тонкой настройке на крайне ограниченных данных. Существующие работы исследовали генерацию, управляемую объектами, с использованием референсного набора, содержащего несколько изображений. Однако лишь немногие из них изучали генерацию, управляемую доменом, на основе DDPM, которая направлена на изучение общих характеристик целевых доменов при сохранении разнообразия. В данной статье предлагается новый подход DomainStudio для адаптации DDPM, предварительно обученных на крупномасштабных исходных наборах данных, к целевым доменам с использованием ограниченных данных. Он разработан для сохранения разнообразия объектов, предоставляемых исходными доменами, и получения высококачественных и разнообразных адаптированных образцов в целевых доменах. Мы предлагаем сохранять относительные расстояния между адаптированными образцами для достижения значительного разнообразия генерации. Кроме того, мы дополнительно улучшаем изучение высокочастотных деталей для повышения качества генерации. Наш подход совместим как с безусловными, так и с условными диффузионными моделями. Данная работа представляет собой первую попытку реализации безусловной генерации изображений с малым количеством данных с использованием диффузионных моделей, достигая лучшего качества и большего разнообразия, чем современные подходы на основе GAN. Более того, эта работа также значительно снижает переобучение для условной генерации и реализует высококачественную генерацию, управляемую доменом, что расширяет применимость современных крупномасштабных текстово-изобразительных моделей.
English
Denoising diffusion probabilistic models (DDPMs) have been proven capable of
synthesizing high-quality images with remarkable diversity when trained on
large amounts of data. Typical diffusion models and modern large-scale
conditional generative models like text-to-image generative models are
vulnerable to overfitting when fine-tuned on extremely limited data. Existing
works have explored subject-driven generation using a reference set containing
a few images. However, few prior works explore DDPM-based domain-driven
generation, which aims to learn the common features of target domains while
maintaining diversity. This paper proposes a novel DomainStudio approach to
adapt DDPMs pre-trained on large-scale source datasets to target domains using
limited data. It is designed to keep the diversity of subjects provided by
source domains and get high-quality and diverse adapted samples in target
domains. We propose to keep the relative distances between adapted samples to
achieve considerable generation diversity. In addition, we further enhance the
learning of high-frequency details for better generation quality. Our approach
is compatible with both unconditional and conditional diffusion models. This
work makes the first attempt to realize unconditional few-shot image generation
with diffusion models, achieving better quality and greater diversity than
current state-of-the-art GAN-based approaches. Moreover, this work also
significantly relieves overfitting for conditional generation and realizes
high-quality domain-driven generation, further expanding the applicable
scenarios of modern large-scale text-to-image models.