MultiBooth:テキストから画像内のすべての概念を生成するためのアプローチ
MultiBooth: Towards Generating All Your Concepts in an Image from Text
April 22, 2024
著者: Chenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu
cs.AI
要旨
本論文では、テキストからの画像生成におけるマルチコンセプトカスタマイズのための新規かつ効率的な技術であるMultiBoothを紹介する。特に拡散モデルの成功により、カスタマイズ生成手法は大きく進歩しているが、既存の手法はコンセプトの忠実度が低く、推論コストが高いため、マルチコンセプトのシナリオに苦戦することが多い。MultiBoothは、マルチコンセプト生成プロセスを2つのフェーズに分割することでこれらの課題に対処する:シングルコンセプト学習フェーズとマルチコンセプト統合フェーズである。シングルコンセプト学習フェーズでは、マルチモーダル画像エンコーダと効率的なコンセプトエンコーディング技術を用いて、各コンセプトの簡潔で識別可能な表現を学習する。マルチコンセプト統合フェーズでは、クロスアテンションマップ内で各コンセプトの生成領域を定義するためにバウンディングボックスを使用する。この方法により、指定された領域内で個々のコンセプトを生成し、マルチコンセプト画像の形成を容易にする。この戦略は、コンセプトの忠実度を向上させるだけでなく、追加の推論コストも削減する。MultiBoothは、定性的および定量的な評価においてさまざまなベースラインを上回り、その優れた性能と計算効率を示している。プロジェクトページ: https://multibooth.github.io/
English
This paper introduces MultiBooth, a novel and efficient technique for
multi-concept customization in image generation from text. Despite the
significant advancements in customized generation methods, particularly with
the success of diffusion models, existing methods often struggle with
multi-concept scenarios due to low concept fidelity and high inference cost.
MultiBooth addresses these issues by dividing the multi-concept generation
process into two phases: a single-concept learning phase and a multi-concept
integration phase. During the single-concept learning phase, we employ a
multi-modal image encoder and an efficient concept encoding technique to learn
a concise and discriminative representation for each concept. In the
multi-concept integration phase, we use bounding boxes to define the generation
area for each concept within the cross-attention map. This method enables the
creation of individual concepts within their specified regions, thereby
facilitating the formation of multi-concept images. This strategy not only
improves concept fidelity but also reduces additional inference cost.
MultiBooth surpasses various baselines in both qualitative and quantitative
evaluations, showcasing its superior performance and computational efficiency.
Project Page: https://multibooth.github.io/Summary
AI-Generated Summary