OmniBooth: マルチモーダル指示による画像合成のための潜在制御の学習
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction
October 7, 2024
著者: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen
cs.AI
要旨
私たちは、OmniBoothを提案します。これは、空間制御とインスタンスレベルのマルチモーダルなカスタマイズを可能にする画像生成フレームワークです。すべてのインスタンスについて、マルチモーダルな指示はテキストプロンプトまたは画像リファレンスを介して記述できます。ユーザー定義のマスクと関連するテキストまたは画像のガイダンスが与えられた場合、私たちの目標は、複数のオブジェクトが指定された座標に配置され、それらの属性が対応するガイダンスと正確に整列された画像を生成することです。このアプローチは、テキストから画像への生成の範囲を大幅に拡大し、制御可能性においてより多目的で実用的な次元に引き上げます。本論文では、提案された潜在制御信号が中心的な貢献をしており、これは高次元の空間特徴であり、空間、テキスト、画像の条件をシームレスに統合する統一された表現を提供します。テキスト条件は、ControlNetを拡張してインスタンスレベルのオープンボキャブラリー生成を提供します。画像条件は、パーソナライズされたアイデンティティによる細かい制御をさらに可能にします。実践的には、私たちの手法は、ユーザーが必要に応じてテキストまたは画像からマルチモーダルな条件を選択できるため、制御可能な生成においてユーザーにより多くの柔軟性を提供します。さらに、徹底した実験により、異なるタスクやデータセット間での画像合成の忠実度と整合性における強化されたパフォーマンスが示されています。プロジェクトページ:https://len-li.github.io/omnibooth-web/
English
We present OmniBooth, an image generation framework that enables spatial
control with instance-level multi-modal customization. For all instances, the
multimodal instruction can be described through text prompts or image
references. Given a set of user-defined masks and associated text or image
guidance, our objective is to generate an image, where multiple objects are
positioned at specified coordinates and their attributes are precisely aligned
with the corresponding guidance. This approach significantly expands the scope
of text-to-image generation, and elevates it to a more versatile and practical
dimension in controllability. In this paper, our core contribution lies in the
proposed latent control signals, a high-dimensional spatial feature that
provides a unified representation to integrate the spatial, textual, and image
conditions seamlessly. The text condition extends ControlNet to provide
instance-level open-vocabulary generation. The image condition further enables
fine-grained control with personalized identity. In practice, our method
empowers users with more flexibility in controllable generation, as users can
choose multi-modal conditions from text or images as needed. Furthermore,
thorough experiments demonstrate our enhanced performance in image synthesis
fidelity and alignment across different tasks and datasets. Project page:
https://len-li.github.io/omnibooth-web/Summary
AI-Generated Summary