BootPIG: Inicialização de Capacidades de Geração de Imagens Personalizadas Zero-shot em Modelos de Difusão Pré-treinados
BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models
January 25, 2024
Autores: Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik
cs.AI
Resumo
Modelos recentes de geração de texto para imagem demonstraram um sucesso incrível na criação de imagens que seguem fielmente os prompts de entrada. No entanto, a necessidade de usar palavras para descrever um conceito desejado oferece um controle limitado sobre a aparência dos conceitos gerados. Neste trabalho, abordamos essa limitação propondo uma abordagem para habilitar capacidades de personalização em modelos de difusão de texto para imagem existentes. Propomos uma nova arquitetura (BootPIG) que permite ao usuário fornecer imagens de referência de um objeto para guiar a aparência de um conceito nas imagens geradas.
A arquitetura BootPIG proposta faz modificações mínimas em um modelo de difusão de texto para imagem pré-treinado e utiliza um modelo UNet separado para direcionar as gerações para a aparência desejada. Introduzimos um procedimento de treinamento que nos permite implementar capacidades de personalização na arquitetura BootPIG usando dados gerados por modelos de texto para imagem pré-treinados, agentes de chat baseados em LLM e modelos de segmentação de imagem. Em contraste com métodos existentes que exigem vários dias de pré-treinamento, a arquitetura BootPIG pode ser treinada em aproximadamente 1 hora. Experimentos no conjunto de dados DreamBooth demonstram que o BootPIG supera métodos zero-shot existentes, sendo comparável a abordagens de ajuste fino em tempo de teste. Por meio de um estudo com usuários, validamos a preferência pelas gerações do BootPIG em relação aos métodos existentes, tanto na manutenção da fidelidade à aparência do objeto de referência quanto no alinhamento com os prompts textuais.
English
Recent text-to-image generation models have demonstrated incredible success
in generating images that faithfully follow input prompts. However, the
requirement of using words to describe a desired concept provides limited
control over the appearance of the generated concepts. In this work, we address
this shortcoming by proposing an approach to enable personalization
capabilities in existing text-to-image diffusion models. We propose a novel
architecture (BootPIG) that allows a user to provide reference images of an
object in order to guide the appearance of a concept in the generated images.
The proposed BootPIG architecture makes minimal modifications to a pretrained
text-to-image diffusion model and utilizes a separate UNet model to steer the
generations toward the desired appearance. We introduce a training procedure
that allows us to bootstrap personalization capabilities in the BootPIG
architecture using data generated from pretrained text-to-image models, LLM
chat agents, and image segmentation models. In contrast to existing methods
that require several days of pretraining, the BootPIG architecture can be
trained in approximately 1 hour. Experiments on the DreamBooth dataset
demonstrate that BootPIG outperforms existing zero-shot methods while being
comparable with test-time finetuning approaches. Through a user study, we
validate the preference for BootPIG generations over existing methods both in
maintaining fidelity to the reference object's appearance and aligning with
textual prompts.