BootPIG: Iniciación de Capacidades de Generación de Imágenes Personalizadas Cero-Shot en Modelos de Difusión Preentrenados
BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models
January 25, 2024
Autores: Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik
cs.AI
Resumen
Los modelos recientes de generación de texto a imagen han demostrado un éxito increíble en la creación de imágenes que siguen fielmente las indicaciones de entrada. Sin embargo, el requisito de usar palabras para describir un concepto deseado ofrece un control limitado sobre la apariencia de los conceptos generados. En este trabajo, abordamos esta limitación proponiendo un enfoque para habilitar capacidades de personalización en modelos de difusión de texto a imagen existentes. Proponemos una arquitectura novedosa (BootPIG) que permite a un usuario proporcionar imágenes de referencia de un objeto para guiar la apariencia de un concepto en las imágenes generadas.
La arquitectura BootPIG propuesta realiza modificaciones mínimas a un modelo de difusión de texto a imagen preentrenado y utiliza un modelo UNet separado para dirigir las generaciones hacia la apariencia deseada. Introducimos un procedimiento de entrenamiento que nos permite impulsar las capacidades de personalización en la arquitectura BootPIG utilizando datos generados a partir de modelos preentrenados de texto a imagen, agentes de chat basados en LLM y modelos de segmentación de imágenes. A diferencia de los métodos existentes que requieren varios días de preentrenamiento, la arquitectura BootPIG puede entrenarse en aproximadamente 1 hora. Los experimentos en el conjunto de datos DreamBooth demuestran que BootPIG supera a los métodos de cero disparos existentes, siendo comparable con los enfoques de ajuste fino en tiempo de prueba. A través de un estudio de usuario, validamos la preferencia por las generaciones de BootPIG sobre los métodos existentes, tanto en la fidelidad a la apariencia del objeto de referencia como en la alineación con las indicaciones textuales.
English
Recent text-to-image generation models have demonstrated incredible success
in generating images that faithfully follow input prompts. However, the
requirement of using words to describe a desired concept provides limited
control over the appearance of the generated concepts. In this work, we address
this shortcoming by proposing an approach to enable personalization
capabilities in existing text-to-image diffusion models. We propose a novel
architecture (BootPIG) that allows a user to provide reference images of an
object in order to guide the appearance of a concept in the generated images.
The proposed BootPIG architecture makes minimal modifications to a pretrained
text-to-image diffusion model and utilizes a separate UNet model to steer the
generations toward the desired appearance. We introduce a training procedure
that allows us to bootstrap personalization capabilities in the BootPIG
architecture using data generated from pretrained text-to-image models, LLM
chat agents, and image segmentation models. In contrast to existing methods
that require several days of pretraining, the BootPIG architecture can be
trained in approximately 1 hour. Experiments on the DreamBooth dataset
demonstrate that BootPIG outperforms existing zero-shot methods while being
comparable with test-time finetuning approaches. Through a user study, we
validate the preference for BootPIG generations over existing methods both in
maintaining fidelity to the reference object's appearance and aligning with
textual prompts.