Диффузионная самодистилляция для генерации изображений с нулевой настройкой.
Diffusion Self-Distillation for Zero-Shot Customized Image Generation
November 27, 2024
Авторы: Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
cs.AI
Аннотация
Модели диффузии текста в изображение производят впечатляющие результаты, но являются раздражающими инструментами для художников, желающих тонкой настройки. Например, распространенным случаем использования является создание изображений конкретного экземпляра в новых контекстах, т.е. "генерация с сохранением идентичности". Этот сценарий, а также многие другие задачи (например, изменение освещения), естественным образом подходят для условных генеративных моделей изображения+текста. Однако для обучения такой модели недостаточно высококачественных сопоставленных данных. Мы предлагаем метод самодистилляции диффузии, позволяющий использовать предварительно обученную модель текста в изображение для создания собственного набора данных для задач изображение-изображение с условием текста. Сначала мы используем способность модели диффузии текста в изображение к генерации в контексте для создания сеток изображений и курируем большой сопоставленный набор данных с помощью модели визуального языка. Затем мы донастраиваем модель текста в изображение в модель текст+изображение-изображение, используя подготовленный сопоставленный набор данных. Мы демонстрируем, что метод самодистилляции диффузии превосходит существующие методы нулевой настройки и конкурентоспособен с методами настройки по экземпляру в широком спектре задач генерации с сохранением идентичности, не требуя оптимизации во время тестирования.
English
Text-to-image diffusion models produce impressive results but are frustrating
tools for artists who desire fine-grained control. For example, a common use
case is to create images of a specific instance in novel contexts, i.e.,
"identity-preserving generation". This setting, along with many other tasks
(e.g., relighting), is a natural fit for image+text-conditional generative
models. However, there is insufficient high-quality paired data to train such a
model directly. We propose Diffusion Self-Distillation, a method for using a
pre-trained text-to-image model to generate its own dataset for
text-conditioned image-to-image tasks. We first leverage a text-to-image
diffusion model's in-context generation ability to create grids of images and
curate a large paired dataset with the help of a Visual-Language Model. We then
fine-tune the text-to-image model into a text+image-to-image model using the
curated paired dataset. We demonstrate that Diffusion Self-Distillation
outperforms existing zero-shot methods and is competitive with per-instance
tuning techniques on a wide range of identity-preservation generation tasks,
without requiring test-time optimization.Summary
AI-Generated Summary