MultiBooth: Rumo à Geração de Todos os Seus Conceitos em uma Imagem a Partir de Texto
MultiBooth: Towards Generating All Your Concepts in an Image from Text
April 22, 2024
Autores: Chenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu
cs.AI
Resumo
Este artigo apresenta o MultiBooth, uma técnica nova e eficiente para personalização de múltiplos conceitos na geração de imagens a partir de texto. Apesar dos avanços significativos nos métodos de geração personalizada, especialmente com o sucesso dos modelos de difusão, os métodos existentes frequentemente enfrentam dificuldades em cenários de múltiplos conceitos devido à baixa fidelidade conceitual e ao alto custo de inferência. O MultiBooth aborda esses problemas dividindo o processo de geração de múltiplos conceitos em duas fases: uma fase de aprendizado de conceito único e uma fase de integração de múltiplos conceitos. Durante a fase de aprendizado de conceito único, empregamos um codificador de imagem multimodal e uma técnica eficiente de codificação de conceitos para aprender uma representação concisa e discriminativa para cada conceito. Na fase de integração de múltiplos conceitos, utilizamos caixas delimitadoras para definir a área de geração de cada conceito dentro do mapa de atenção cruzada. Esse método permite a criação de conceitos individuais dentro de suas regiões especificadas, facilitando assim a formação de imagens com múltiplos conceitos. Essa estratégia não apenas melhora a fidelidade conceitual, mas também reduz o custo adicional de inferência. O MultiBooth supera várias linhas de base em avaliações qualitativas e quantitativas, demonstrando seu desempenho superior e eficiência computacional. Página do Projeto: https://multibooth.github.io/
English
This paper introduces MultiBooth, a novel and efficient technique for
multi-concept customization in image generation from text. Despite the
significant advancements in customized generation methods, particularly with
the success of diffusion models, existing methods often struggle with
multi-concept scenarios due to low concept fidelity and high inference cost.
MultiBooth addresses these issues by dividing the multi-concept generation
process into two phases: a single-concept learning phase and a multi-concept
integration phase. During the single-concept learning phase, we employ a
multi-modal image encoder and an efficient concept encoding technique to learn
a concise and discriminative representation for each concept. In the
multi-concept integration phase, we use bounding boxes to define the generation
area for each concept within the cross-attention map. This method enables the
creation of individual concepts within their specified regions, thereby
facilitating the formation of multi-concept images. This strategy not only
improves concept fidelity but also reduces additional inference cost.
MultiBooth surpasses various baselines in both qualitative and quantitative
evaluations, showcasing its superior performance and computational efficiency.
Project Page: https://multibooth.github.io/