BootPIG: Запуск возможностей персонализированной генерации изображений с нулевым обучением в предобученных диффузионных моделях
BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models
January 25, 2024
Авторы: Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik
cs.AI
Аннотация
Современные модели генерации изображений по текстовым описаниям демонстрируют впечатляющие успехи в создании изображений, точно соответствующих входным запросам. Однако необходимость использования слов для описания желаемого концепта ограничивает контроль над внешним видом генерируемых объектов. В данной работе мы устраняем этот недостаток, предлагая подход для внедрения возможностей персонализации в существующие диффузионные модели генерации изображений по тексту. Мы представляем новую архитектуру (BootPIG), которая позволяет пользователю предоставлять эталонные изображения объекта для управления его внешним видом в генерируемых изображениях.
Предложенная архитектура BootPIG вносит минимальные изменения в предобученную диффузионную модель генерации изображений по тексту и использует отдельную модель UNet для направления генераций в сторону желаемого внешнего вида. Мы разработали процедуру обучения, которая позволяет внедрить возможности персонализации в архитектуру BootPIG с использованием данных, сгенерированных предобученными моделями генерации изображений по тексту, чат-агентами на основе больших языковых моделей (LLM) и моделями сегментации изображений. В отличие от существующих методов, требующих нескольких дней предварительного обучения, архитектура BootPIG может быть обучена примерно за 1 час. Эксперименты на наборе данных DreamBooth показывают, что BootPIG превосходит существующие методы с нулевым обучением (zero-shot) и сопоставима с подходами, требующими тонкой настройки во время тестирования. В ходе пользовательского исследования мы подтвердили предпочтение генераций BootPIG по сравнению с существующими методами как в сохранении точности внешнего вида эталонного объекта, так и в соответствии текстовым запросам.
English
Recent text-to-image generation models have demonstrated incredible success
in generating images that faithfully follow input prompts. However, the
requirement of using words to describe a desired concept provides limited
control over the appearance of the generated concepts. In this work, we address
this shortcoming by proposing an approach to enable personalization
capabilities in existing text-to-image diffusion models. We propose a novel
architecture (BootPIG) that allows a user to provide reference images of an
object in order to guide the appearance of a concept in the generated images.
The proposed BootPIG architecture makes minimal modifications to a pretrained
text-to-image diffusion model and utilizes a separate UNet model to steer the
generations toward the desired appearance. We introduce a training procedure
that allows us to bootstrap personalization capabilities in the BootPIG
architecture using data generated from pretrained text-to-image models, LLM
chat agents, and image segmentation models. In contrast to existing methods
that require several days of pretraining, the BootPIG architecture can be
trained in approximately 1 hour. Experiments on the DreamBooth dataset
demonstrate that BootPIG outperforms existing zero-shot methods while being
comparable with test-time finetuning approaches. Through a user study, we
validate the preference for BootPIG generations over existing methods both in
maintaining fidelity to the reference object's appearance and aligning with
textual prompts.