ChatPaper.aiChatPaper

MultiBooth: Hacia la generación de todos tus conceptos en una imagen a partir de texto

MultiBooth: Towards Generating All Your Concepts in an Image from Text

April 22, 2024
Autores: Chenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu
cs.AI

Resumen

Este artículo presenta MultiBooth, una técnica novedosa y eficiente para la personalización de múltiples conceptos en la generación de imágenes a partir de texto. A pesar de los avances significativos en los métodos de generación personalizada, particularmente con el éxito de los modelos de difusión, los métodos existentes suelen enfrentar dificultades en escenarios de múltiples conceptos debido a la baja fidelidad de los conceptos y el alto costo de inferencia. MultiBooth aborda estos problemas dividiendo el proceso de generación de múltiples conceptos en dos fases: una fase de aprendizaje de un solo concepto y una fase de integración de múltiples conceptos. Durante la fase de aprendizaje de un solo concepto, empleamos un codificador de imágenes multimodal y una técnica eficiente de codificación de conceptos para aprender una representación concisa y discriminativa de cada concepto. En la fase de integración de múltiples conceptos, utilizamos cuadros delimitadores para definir el área de generación de cada concepto dentro del mapa de atención cruzada. Este método permite la creación de conceptos individuales dentro de sus regiones especificadas, facilitando así la formación de imágenes con múltiples conceptos. Esta estrategia no solo mejora la fidelidad de los conceptos, sino que también reduce el costo adicional de inferencia. MultiBooth supera varias líneas de base en evaluaciones cualitativas y cuantitativas, demostrando su rendimiento superior y eficiencia computacional. Página del proyecto: https://multibooth.github.io/
English
This paper introduces MultiBooth, a novel and efficient technique for multi-concept customization in image generation from text. Despite the significant advancements in customized generation methods, particularly with the success of diffusion models, existing methods often struggle with multi-concept scenarios due to low concept fidelity and high inference cost. MultiBooth addresses these issues by dividing the multi-concept generation process into two phases: a single-concept learning phase and a multi-concept integration phase. During the single-concept learning phase, we employ a multi-modal image encoder and an efficient concept encoding technique to learn a concise and discriminative representation for each concept. In the multi-concept integration phase, we use bounding boxes to define the generation area for each concept within the cross-attention map. This method enables the creation of individual concepts within their specified regions, thereby facilitating the formation of multi-concept images. This strategy not only improves concept fidelity but also reduces additional inference cost. MultiBooth surpasses various baselines in both qualitative and quantitative evaluations, showcasing its superior performance and computational efficiency. Project Page: https://multibooth.github.io/

Summary

AI-Generated Summary

PDF91December 15, 2024