BootPIG : Amorçage de capacités de génération d'images personnalisées en zero-shot dans des modèles de diffusion pré-entraînés
BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models
January 25, 2024
Auteurs: Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik
cs.AI
Résumé
Les modèles récents de génération d'images à partir de texte ont démontré un succès impressionnant dans la création d'images qui suivent fidèlement les instructions textuelles. Cependant, la nécessité d'utiliser des mots pour décrire un concept souhaité offre un contrôle limité sur l'apparence des concepts générés. Dans ce travail, nous abordons cette limitation en proposant une approche pour activer des capacités de personnalisation dans les modèles de diffusion texte-image existants. Nous proposons une nouvelle architecture (BootPIG) qui permet à un utilisateur de fournir des images de référence d'un objet afin de guider l'apparence d'un concept dans les images générées.
L'architecture BootPIG proposée apporte des modifications minimales à un modèle de diffusion texte-image préentraîné et utilise un modèle UNet séparé pour orienter les générations vers l'apparence souhaitée. Nous introduisons une procédure d'entraînement qui nous permet de démarrer les capacités de personnalisation dans l'architecture BootPIG en utilisant des données générées à partir de modèles texte-image préentraînés, d'agents de conversation LLM et de modèles de segmentation d'images. Contrairement aux méthodes existantes qui nécessitent plusieurs jours de pré-entraînement, l'architecture BootPIG peut être entraînée en environ 1 heure. Les expériences sur le jeu de données DreamBooth montrent que BootPIG surpasse les méthodes zero-shot existantes tout en étant comparable aux approches de fine-tuning au moment du test. À travers une étude utilisateur, nous validons la préférence pour les générations de BootPIG par rapport aux méthodes existantes, à la fois en termes de fidélité à l'apparence de l'objet de référence et d'alignement avec les instructions textuelles.
English
Recent text-to-image generation models have demonstrated incredible success
in generating images that faithfully follow input prompts. However, the
requirement of using words to describe a desired concept provides limited
control over the appearance of the generated concepts. In this work, we address
this shortcoming by proposing an approach to enable personalization
capabilities in existing text-to-image diffusion models. We propose a novel
architecture (BootPIG) that allows a user to provide reference images of an
object in order to guide the appearance of a concept in the generated images.
The proposed BootPIG architecture makes minimal modifications to a pretrained
text-to-image diffusion model and utilizes a separate UNet model to steer the
generations toward the desired appearance. We introduce a training procedure
that allows us to bootstrap personalization capabilities in the BootPIG
architecture using data generated from pretrained text-to-image models, LLM
chat agents, and image segmentation models. In contrast to existing methods
that require several days of pretraining, the BootPIG architecture can be
trained in approximately 1 hour. Experiments on the DreamBooth dataset
demonstrate that BootPIG outperforms existing zero-shot methods while being
comparable with test-time finetuning approaches. Through a user study, we
validate the preference for BootPIG generations over existing methods both in
maintaining fidelity to the reference object's appearance and aligning with
textual prompts.