ChatPaper.aiChatPaper

OmniBooth: マルチモーダル指示による画像合成のための潜在制御の学習

OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction

October 7, 2024
著者: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen
cs.AI

要旨

私たちは、OmniBoothを提案します。これは、空間制御とインスタンスレベルのマルチモーダルなカスタマイズを可能にする画像生成フレームワークです。すべてのインスタンスについて、マルチモーダルな指示はテキストプロンプトまたは画像リファレンスを介して記述できます。ユーザー定義のマスクと関連するテキストまたは画像のガイダンスが与えられた場合、私たちの目標は、複数のオブジェクトが指定された座標に配置され、それらの属性が対応するガイダンスと正確に整列された画像を生成することです。このアプローチは、テキストから画像への生成の範囲を大幅に拡大し、制御可能性においてより多目的で実用的な次元に引き上げます。本論文では、提案された潜在制御信号が中心的な貢献をしており、これは高次元の空間特徴であり、空間、テキスト、画像の条件をシームレスに統合する統一された表現を提供します。テキスト条件は、ControlNetを拡張してインスタンスレベルのオープンボキャブラリー生成を提供します。画像条件は、パーソナライズされたアイデンティティによる細かい制御をさらに可能にします。実践的には、私たちの手法は、ユーザーが必要に応じてテキストまたは画像からマルチモーダルな条件を選択できるため、制御可能な生成においてユーザーにより多くの柔軟性を提供します。さらに、徹底した実験により、異なるタスクやデータセット間での画像合成の忠実度と整合性における強化されたパフォーマンスが示されています。プロジェクトページ:https://len-li.github.io/omnibooth-web/
English
We present OmniBooth, an image generation framework that enables spatial control with instance-level multi-modal customization. For all instances, the multimodal instruction can be described through text prompts or image references. Given a set of user-defined masks and associated text or image guidance, our objective is to generate an image, where multiple objects are positioned at specified coordinates and their attributes are precisely aligned with the corresponding guidance. This approach significantly expands the scope of text-to-image generation, and elevates it to a more versatile and practical dimension in controllability. In this paper, our core contribution lies in the proposed latent control signals, a high-dimensional spatial feature that provides a unified representation to integrate the spatial, textual, and image conditions seamlessly. The text condition extends ControlNet to provide instance-level open-vocabulary generation. The image condition further enables fine-grained control with personalized identity. In practice, our method empowers users with more flexibility in controllable generation, as users can choose multi-modal conditions from text or images as needed. Furthermore, thorough experiments demonstrate our enhanced performance in image synthesis fidelity and alignment across different tasks and datasets. Project page: https://len-li.github.io/omnibooth-web/

Summary

AI-Generated Summary

PDF92November 16, 2024