ChatPaper.aiChatPaper

MultiBooth: к генерации всех ваших концепций на изображении из текста

MultiBooth: Towards Generating All Your Concepts in an Image from Text

April 22, 2024
Авторы: Chenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu
cs.AI

Аннотация

Эта статья представляет MultiBooth, новую и эффективную технику для многоконцептуальной настройки в генерации изображений по тексту. Несмотря на значительные достижения в методах настраиваемой генерации, особенно с успехом моделей диффузии, существующие методы часто сталкиваются с трудностями в сценариях с несколькими концепциями из-за низкой точности концепции и высокой стоимости вывода. MultiBooth решает эти проблемы, разделяя процесс многоконцептуальной генерации на две фазы: фазу обучения одноконцептуальной и фазу интеграции многоконцептуальной. Во время фазы обучения одноконцептуальной мы используем мультимодальный кодировщик изображений и эффективную технику кодирования концепции для изучения краткого и дискриминативного представления для каждой концепции. В фазе интеграции многоконцептуальной мы используем ограничивающие рамки для определения области генерации для каждой концепции внутри карты взаимного внимания. Этот метод позволяет создавать отдельные концепции в их определенных областях, тем самым облегчая формирование многоконцептуальных изображений. Эта стратегия не только улучшает точность концепции, но и снижает дополнительные затраты на вывод. MultiBooth превосходит различные базовые уровни как в качественной, так и в количественной оценках, демонстрируя свою выдающуюся производительность и вычислительную эффективность. Страница проекта: https://multibooth.github.io/
English
This paper introduces MultiBooth, a novel and efficient technique for multi-concept customization in image generation from text. Despite the significant advancements in customized generation methods, particularly with the success of diffusion models, existing methods often struggle with multi-concept scenarios due to low concept fidelity and high inference cost. MultiBooth addresses these issues by dividing the multi-concept generation process into two phases: a single-concept learning phase and a multi-concept integration phase. During the single-concept learning phase, we employ a multi-modal image encoder and an efficient concept encoding technique to learn a concise and discriminative representation for each concept. In the multi-concept integration phase, we use bounding boxes to define the generation area for each concept within the cross-attention map. This method enables the creation of individual concepts within their specified regions, thereby facilitating the formation of multi-concept images. This strategy not only improves concept fidelity but also reduces additional inference cost. MultiBooth surpasses various baselines in both qualitative and quantitative evaluations, showcasing its superior performance and computational efficiency. Project Page: https://multibooth.github.io/

Summary

AI-Generated Summary

PDF91December 15, 2024