ChatPaper.aiChatPaper

BootPIG : Amorçage de capacités de génération d'images personnalisées en zero-shot dans des modèles de diffusion pré-entraînés

BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models

January 25, 2024
Auteurs: Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik
cs.AI

Résumé

Les modèles récents de génération d'images à partir de texte ont démontré un succès impressionnant dans la création d'images qui suivent fidèlement les instructions textuelles. Cependant, la nécessité d'utiliser des mots pour décrire un concept souhaité offre un contrôle limité sur l'apparence des concepts générés. Dans ce travail, nous abordons cette limitation en proposant une approche pour activer des capacités de personnalisation dans les modèles de diffusion texte-image existants. Nous proposons une nouvelle architecture (BootPIG) qui permet à un utilisateur de fournir des images de référence d'un objet afin de guider l'apparence d'un concept dans les images générées. L'architecture BootPIG proposée apporte des modifications minimales à un modèle de diffusion texte-image préentraîné et utilise un modèle UNet séparé pour orienter les générations vers l'apparence souhaitée. Nous introduisons une procédure d'entraînement qui nous permet de démarrer les capacités de personnalisation dans l'architecture BootPIG en utilisant des données générées à partir de modèles texte-image préentraînés, d'agents de conversation LLM et de modèles de segmentation d'images. Contrairement aux méthodes existantes qui nécessitent plusieurs jours de pré-entraînement, l'architecture BootPIG peut être entraînée en environ 1 heure. Les expériences sur le jeu de données DreamBooth montrent que BootPIG surpasse les méthodes zero-shot existantes tout en étant comparable aux approches de fine-tuning au moment du test. À travers une étude utilisateur, nous validons la préférence pour les générations de BootPIG par rapport aux méthodes existantes, à la fois en termes de fidélité à l'apparence de l'objet de référence et d'alignement avec les instructions textuelles.
English
Recent text-to-image generation models have demonstrated incredible success in generating images that faithfully follow input prompts. However, the requirement of using words to describe a desired concept provides limited control over the appearance of the generated concepts. In this work, we address this shortcoming by proposing an approach to enable personalization capabilities in existing text-to-image diffusion models. We propose a novel architecture (BootPIG) that allows a user to provide reference images of an object in order to guide the appearance of a concept in the generated images. The proposed BootPIG architecture makes minimal modifications to a pretrained text-to-image diffusion model and utilizes a separate UNet model to steer the generations toward the desired appearance. We introduce a training procedure that allows us to bootstrap personalization capabilities in the BootPIG architecture using data generated from pretrained text-to-image models, LLM chat agents, and image segmentation models. In contrast to existing methods that require several days of pretraining, the BootPIG architecture can be trained in approximately 1 hour. Experiments on the DreamBooth dataset demonstrate that BootPIG outperforms existing zero-shot methods while being comparable with test-time finetuning approaches. Through a user study, we validate the preference for BootPIG generations over existing methods both in maintaining fidelity to the reference object's appearance and aligning with textual prompts.
PDF141December 15, 2024