MultiBooth : Vers la génération de tous vos concepts dans une image à partir de texte
MultiBooth: Towards Generating All Your Concepts in an Image from Text
April 22, 2024
Auteurs: Chenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu
cs.AI
Résumé
Cet article présente MultiBooth, une technique novatrice et efficace pour la personnalisation multi-concepts dans la génération d'images à partir de texte. Malgré les avancées significatives des méthodes de génération personnalisée, en particulier avec le succès des modèles de diffusion, les méthodes existantes peinent souvent dans les scénarios multi-concepts en raison d'une faible fidélité conceptuelle et d'un coût d'inférence élevé. MultiBooth résout ces problèmes en divisant le processus de génération multi-concepts en deux phases : une phase d'apprentissage mono-concept et une phase d'intégration multi-concepts. Durant la phase d'apprentissage mono-concept, nous utilisons un encodeur d'images multi-modal et une technique d'encodage de concept efficace pour apprendre une représentation concise et discriminante pour chaque concept. Dans la phase d'intégration multi-concepts, nous utilisons des boîtes englobantes pour définir la zone de génération de chaque concept au sein de la carte d'attention croisée. Cette méthode permet la création de concepts individuels dans leurs régions spécifiées, facilitant ainsi la formation d'images multi-concepts. Cette stratégie améliore non seulement la fidélité conceptuelle, mais réduit également le coût d'inférence supplémentaire. MultiBooth surpasse diverses méthodes de référence dans les évaluations qualitatives et quantitatives, démontrant ses performances supérieures et son efficacité computationnelle. Page du projet : https://multibooth.github.io/
English
This paper introduces MultiBooth, a novel and efficient technique for
multi-concept customization in image generation from text. Despite the
significant advancements in customized generation methods, particularly with
the success of diffusion models, existing methods often struggle with
multi-concept scenarios due to low concept fidelity and high inference cost.
MultiBooth addresses these issues by dividing the multi-concept generation
process into two phases: a single-concept learning phase and a multi-concept
integration phase. During the single-concept learning phase, we employ a
multi-modal image encoder and an efficient concept encoding technique to learn
a concise and discriminative representation for each concept. In the
multi-concept integration phase, we use bounding boxes to define the generation
area for each concept within the cross-attention map. This method enables the
creation of individual concepts within their specified regions, thereby
facilitating the formation of multi-concept images. This strategy not only
improves concept fidelity but also reduces additional inference cost.
MultiBooth surpasses various baselines in both qualitative and quantitative
evaluations, showcasing its superior performance and computational efficiency.
Project Page: https://multibooth.github.io/Summary
AI-Generated Summary