MultiBooth: Verso la generazione di tutti i tuoi concetti in un'immagine a partire dal testo

Abstract

Questo articolo introduce MultiBooth, una tecnica innovativa ed efficiente per la personalizzazione multi-concetto nella generazione di immagini da testo. Nonostante i significativi progressi nei metodi di generazione personalizzata, in particolare con il successo dei modelli di diffusione, i metodi esistenti spesso incontrano difficoltà negli scenari multi-concetto a causa della bassa fedeltà dei concetti e degli elevati costi di inferenza. MultiBooth affronta questi problemi suddividendo il processo di generazione multi-concetto in due fasi: una fase di apprendimento mono-concetto e una fase di integrazione multi-concetto. Durante la fase di apprendimento mono-concetto, utilizziamo un codificatore di immagini multi-modale e una tecnica efficiente di codifica dei concetti per apprendere una rappresentazione concisa e discriminativa per ciascun concetto. Nella fase di integrazione multi-concetto, utilizziamo bounding box per definire l'area di generazione per ciascun concetto all'interno della mappa di cross-attention. Questo metodo consente la creazione di singoli concetti all'interno delle rispettive regioni specificate, facilitando così la formazione di immagini multi-concetto. Questa strategia non solo migliora la fedeltà dei concetti, ma riduce anche i costi aggiuntivi di inferenza. MultiBooth supera vari baseline sia nelle valutazioni qualitative che quantitative, dimostrando la sua superiore performance ed efficienza computazionale. Pagina del progetto: https://multibooth.github.io/

English

This paper introduces MultiBooth, a novel and efficient technique for multi-concept customization in image generation from text. Despite the significant advancements in customized generation methods, particularly with the success of diffusion models, existing methods often struggle with multi-concept scenarios due to low concept fidelity and high inference cost. MultiBooth addresses these issues by dividing the multi-concept generation process into two phases: a single-concept learning phase and a multi-concept integration phase. During the single-concept learning phase, we employ a multi-modal image encoder and an efficient concept encoding technique to learn a concise and discriminative representation for each concept. In the multi-concept integration phase, we use bounding boxes to define the generation area for each concept within the cross-attention map. This method enables the creation of individual concepts within their specified regions, thereby facilitating the formation of multi-concept images. This strategy not only improves concept fidelity but also reduces additional inference cost. MultiBooth surpasses various baselines in both qualitative and quantitative evaluations, showcasing its superior performance and computational efficiency. Project Page: https://multibooth.github.io/

MultiBooth: Verso la generazione di tutti i tuoi concetti in un'immagine a partire dal testo

MultiBooth: Towards Generating All Your Concepts in an Image from Text

Abstract

Support