ChatPaper.aiChatPaper

BootPIG: Запуск возможностей персонализированной генерации изображений с нулевым обучением в предобученных диффузионных моделях

BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models

January 25, 2024
Авторы: Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik
cs.AI

Аннотация

Современные модели генерации изображений по текстовым описаниям демонстрируют впечатляющие успехи в создании изображений, точно соответствующих входным запросам. Однако необходимость использования слов для описания желаемого концепта ограничивает контроль над внешним видом генерируемых объектов. В данной работе мы устраняем этот недостаток, предлагая подход для внедрения возможностей персонализации в существующие диффузионные модели генерации изображений по тексту. Мы представляем новую архитектуру (BootPIG), которая позволяет пользователю предоставлять эталонные изображения объекта для управления его внешним видом в генерируемых изображениях. Предложенная архитектура BootPIG вносит минимальные изменения в предобученную диффузионную модель генерации изображений по тексту и использует отдельную модель UNet для направления генераций в сторону желаемого внешнего вида. Мы разработали процедуру обучения, которая позволяет внедрить возможности персонализации в архитектуру BootPIG с использованием данных, сгенерированных предобученными моделями генерации изображений по тексту, чат-агентами на основе больших языковых моделей (LLM) и моделями сегментации изображений. В отличие от существующих методов, требующих нескольких дней предварительного обучения, архитектура BootPIG может быть обучена примерно за 1 час. Эксперименты на наборе данных DreamBooth показывают, что BootPIG превосходит существующие методы с нулевым обучением (zero-shot) и сопоставима с подходами, требующими тонкой настройки во время тестирования. В ходе пользовательского исследования мы подтвердили предпочтение генераций BootPIG по сравнению с существующими методами как в сохранении точности внешнего вида эталонного объекта, так и в соответствии текстовым запросам.
English
Recent text-to-image generation models have demonstrated incredible success in generating images that faithfully follow input prompts. However, the requirement of using words to describe a desired concept provides limited control over the appearance of the generated concepts. In this work, we address this shortcoming by proposing an approach to enable personalization capabilities in existing text-to-image diffusion models. We propose a novel architecture (BootPIG) that allows a user to provide reference images of an object in order to guide the appearance of a concept in the generated images. The proposed BootPIG architecture makes minimal modifications to a pretrained text-to-image diffusion model and utilizes a separate UNet model to steer the generations toward the desired appearance. We introduce a training procedure that allows us to bootstrap personalization capabilities in the BootPIG architecture using data generated from pretrained text-to-image models, LLM chat agents, and image segmentation models. In contrast to existing methods that require several days of pretraining, the BootPIG architecture can be trained in approximately 1 hour. Experiments on the DreamBooth dataset demonstrate that BootPIG outperforms existing zero-shot methods while being comparable with test-time finetuning approaches. Through a user study, we validate the preference for BootPIG generations over existing methods both in maintaining fidelity to the reference object's appearance and aligning with textual prompts.
PDF141December 15, 2024