MultiBooth: Op weg naar het genereren van al je concepten in een afbeelding vanuit tekst
MultiBooth: Towards Generating All Your Concepts in an Image from Text
April 22, 2024
Auteurs: Chenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu
cs.AI
Samenvatting
Dit artikel introduceert MultiBooth, een nieuwe en efficiënte techniek voor multi-concept aanpassing in beeldgeneratie vanuit tekst. Ondanks de aanzienlijke vooruitgang in aangepaste generatiemethoden, met name door het succes van diffusiemodellen, hebben bestaande methoden vaak moeite met multi-concept scenario’s vanwege lage conceptgetrouwheid en hoge inferentiekosten. MultiBooth lost deze problemen op door het multi-concept generatieproces op te delen in twee fasen: een enkel-concept leerfase en een multi-concept integratiefase. Tijdens de enkel-concept leerfase gebruiken we een multimodale beeldencoder en een efficiënte conceptcoderingstechniek om een beknopte en onderscheidende representatie voor elk concept te leren. In de multi-concept integratiefase gebruiken we begrenzingsvakken om het generatiegebied voor elk concept binnen de cross-attention map te definiëren. Deze methode maakt het mogelijk om individuele concepten binnen hun gespecificeerde regio’s te creëren, waardoor de vorming van multi-concept beelden wordt vergemakkelijkt. Deze strategie verbetert niet alleen de conceptgetrouwheid, maar vermindert ook de extra inferentiekosten. MultiBooth overtreft verschillende baseline-methoden in zowel kwalitatieve als kwantitatieve evaluaties, wat zijn superieure prestaties en computationele efficiëntie aantoont. Projectpagina: https://multibooth.github.io/
English
This paper introduces MultiBooth, a novel and efficient technique for
multi-concept customization in image generation from text. Despite the
significant advancements in customized generation methods, particularly with
the success of diffusion models, existing methods often struggle with
multi-concept scenarios due to low concept fidelity and high inference cost.
MultiBooth addresses these issues by dividing the multi-concept generation
process into two phases: a single-concept learning phase and a multi-concept
integration phase. During the single-concept learning phase, we employ a
multi-modal image encoder and an efficient concept encoding technique to learn
a concise and discriminative representation for each concept. In the
multi-concept integration phase, we use bounding boxes to define the generation
area for each concept within the cross-attention map. This method enables the
creation of individual concepts within their specified regions, thereby
facilitating the formation of multi-concept images. This strategy not only
improves concept fidelity but also reduces additional inference cost.
MultiBooth surpasses various baselines in both qualitative and quantitative
evaluations, showcasing its superior performance and computational efficiency.
Project Page: https://multibooth.github.io/