ChatPaper.aiChatPaper

MultiBooth: 텍스트로부터 이미지 내 모든 개념을 생성하기 위한 접근법

MultiBooth: Towards Generating All Your Concepts in an Image from Text

April 22, 2024
저자: Chenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu
cs.AI

초록

본 논문은 텍스트에서 이미지 생성을 위한 다중 개념 맞춤화를 위한 새로운 기술인 MultiBooth를 소개한다. 특히 확산 모델의 성공으로 맞춤화 생성 방법이 크게 발전했음에도 불구하고, 기존 방법들은 낮은 개념 충실도와 높은 추론 비용으로 인해 다중 개념 시나리오에서 어려움을 겪는 경우가 많다. MultiBooth는 이러한 문제를 해결하기 위해 다중 개념 생성 과정을 단일 개념 학습 단계와 다중 개념 통합 단계로 나눈다. 단일 개념 학습 단계에서는 다중 모달 이미지 인코더와 효율적인 개념 인코딩 기술을 사용하여 각 개념에 대한 간결하고 구별 가능한 표현을 학습한다. 다중 개념 통합 단계에서는 크로스 어텐션 맵 내에서 각 개념의 생성 영역을 정의하기 위해 바운딩 박스를 사용한다. 이 방법은 지정된 영역 내에서 개별 개념을 생성할 수 있게 하여 다중 개념 이미지의 형성을 용이하게 한다. 이 전략은 개념 충실도를 향상시킬 뿐만 아니라 추가 추론 비용을 줄인다. MultiBooth는 정성적 및 정량적 평가에서 다양한 베이스라인을 능가하며, 우수한 성능과 계산 효율성을 입증한다. 프로젝트 페이지: https://multibooth.github.io/
English
This paper introduces MultiBooth, a novel and efficient technique for multi-concept customization in image generation from text. Despite the significant advancements in customized generation methods, particularly with the success of diffusion models, existing methods often struggle with multi-concept scenarios due to low concept fidelity and high inference cost. MultiBooth addresses these issues by dividing the multi-concept generation process into two phases: a single-concept learning phase and a multi-concept integration phase. During the single-concept learning phase, we employ a multi-modal image encoder and an efficient concept encoding technique to learn a concise and discriminative representation for each concept. In the multi-concept integration phase, we use bounding boxes to define the generation area for each concept within the cross-attention map. This method enables the creation of individual concepts within their specified regions, thereby facilitating the formation of multi-concept images. This strategy not only improves concept fidelity but also reduces additional inference cost. MultiBooth surpasses various baselines in both qualitative and quantitative evaluations, showcasing its superior performance and computational efficiency. Project Page: https://multibooth.github.io/

Summary

AI-Generated Summary

PDF91December 15, 2024