MultiBooth: Auf dem Weg zur Generierung aller Konzepte in einem Bild aus Text
MultiBooth: Towards Generating All Your Concepts in an Image from Text
April 22, 2024
Autoren: Chenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu
cs.AI
Zusammenfassung
Dieses Paper stellt MultiBooth vor, eine neuartige und effiziente Technik für die individuelle Anpassung mehrerer Konzepte bei der Bildgenerierung aus Text. Trotz der signifikanten Fortschritte bei individualisierten Generierungsmethoden, insbesondere mit dem Erfolg von Diffusionsmodellen, haben bestehende Methoden oft Schwierigkeiten mit Szenarien mehrerer Konzepte aufgrund geringer Konzepttreue und hoher Inferenzkosten. MultiBooth begegnet diesen Problemen, indem es den Prozess der mehrkonzeptuellen Generierung in zwei Phasen unterteilt: eine Lernphase für einzelne Konzepte und eine Integrationsphase für mehrere Konzepte. Während der Lernphase für einzelne Konzepte verwenden wir einen multimodalen Bildencoder und eine effiziente Konzeptkodierungstechnik, um eine prägnante und diskriminative Repräsentation für jedes Konzept zu erlernen. In der Integrationsphase für mehrere Konzepte verwenden wir Begrenzungsrahmen, um den Generierungsbereich für jedes Konzept innerhalb der Kreuz-Aufmerksamkeitskarte zu definieren. Diese Methode ermöglicht die Erstellung einzelner Konzepte innerhalb ihrer spezifizierten Regionen und erleichtert somit die Bildung von mehrkonzeptuellen Bildern. Diese Strategie verbessert nicht nur die Konzepttreue, sondern reduziert auch zusätzliche Inferenzkosten. MultiBooth übertrifft verschiedene Baselines sowohl in qualitativen als auch quantitativen Bewertungen und zeigt seine überlegene Leistung und Rechenkapazität. Projektseite: https://multibooth.github.io/
English
This paper introduces MultiBooth, a novel and efficient technique for
multi-concept customization in image generation from text. Despite the
significant advancements in customized generation methods, particularly with
the success of diffusion models, existing methods often struggle with
multi-concept scenarios due to low concept fidelity and high inference cost.
MultiBooth addresses these issues by dividing the multi-concept generation
process into two phases: a single-concept learning phase and a multi-concept
integration phase. During the single-concept learning phase, we employ a
multi-modal image encoder and an efficient concept encoding technique to learn
a concise and discriminative representation for each concept. In the
multi-concept integration phase, we use bounding boxes to define the generation
area for each concept within the cross-attention map. This method enables the
creation of individual concepts within their specified regions, thereby
facilitating the formation of multi-concept images. This strategy not only
improves concept fidelity but also reduces additional inference cost.
MultiBooth surpasses various baselines in both qualitative and quantitative
evaluations, showcasing its superior performance and computational efficiency.
Project Page: https://multibooth.github.io/Summary
AI-Generated Summary