BootPIG: Iniciación de Capacidades de Generación de Imágenes Personalizadas Cero-Shot en Modelos de Difusión Preentrenados

Resumen

Los modelos recientes de generación de texto a imagen han demostrado un éxito increíble en la creación de imágenes que siguen fielmente las indicaciones de entrada. Sin embargo, el requisito de usar palabras para describir un concepto deseado ofrece un control limitado sobre la apariencia de los conceptos generados. En este trabajo, abordamos esta limitación proponiendo un enfoque para habilitar capacidades de personalización en modelos de difusión de texto a imagen existentes. Proponemos una arquitectura novedosa (BootPIG) que permite a un usuario proporcionar imágenes de referencia de un objeto para guiar la apariencia de un concepto en las imágenes generadas. La arquitectura BootPIG propuesta realiza modificaciones mínimas a un modelo de difusión de texto a imagen preentrenado y utiliza un modelo UNet separado para dirigir las generaciones hacia la apariencia deseada. Introducimos un procedimiento de entrenamiento que nos permite impulsar las capacidades de personalización en la arquitectura BootPIG utilizando datos generados a partir de modelos preentrenados de texto a imagen, agentes de chat basados en LLM y modelos de segmentación de imágenes. A diferencia de los métodos existentes que requieren varios días de preentrenamiento, la arquitectura BootPIG puede entrenarse en aproximadamente 1 hora. Los experimentos en el conjunto de datos DreamBooth demuestran que BootPIG supera a los métodos de cero disparos existentes, siendo comparable con los enfoques de ajuste fino en tiempo de prueba. A través de un estudio de usuario, validamos la preferencia por las generaciones de BootPIG sobre los métodos existentes, tanto en la fidelidad a la apariencia del objeto de referencia como en la alineación con las indicaciones textuales.

English

Recent text-to-image generation models have demonstrated incredible success in generating images that faithfully follow input prompts. However, the requirement of using words to describe a desired concept provides limited control over the appearance of the generated concepts. In this work, we address this shortcoming by proposing an approach to enable personalization capabilities in existing text-to-image diffusion models. We propose a novel architecture (BootPIG) that allows a user to provide reference images of an object in order to guide the appearance of a concept in the generated images. The proposed BootPIG architecture makes minimal modifications to a pretrained text-to-image diffusion model and utilizes a separate UNet model to steer the generations toward the desired appearance. We introduce a training procedure that allows us to bootstrap personalization capabilities in the BootPIG architecture using data generated from pretrained text-to-image models, LLM chat agents, and image segmentation models. In contrast to existing methods that require several days of pretraining, the BootPIG architecture can be trained in approximately 1 hour. Experiments on the DreamBooth dataset demonstrate that BootPIG outperforms existing zero-shot methods while being comparable with test-time finetuning approaches. Through a user study, we validate the preference for BootPIG generations over existing methods both in maintaining fidelity to the reference object's appearance and aligning with textual prompts.

BootPIG: Iniciación de Capacidades de Generación de Imágenes Personalizadas Cero-Shot en Modelos de Difusión Preentrenados

BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models

Resumen

Support