ChatPaper.aiChatPaper

OmniBooth : Apprentissage du contrôle latent pour la synthèse d'images avec des instructions multi-modales

OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction

October 7, 2024
Auteurs: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen
cs.AI

Résumé

Nous présentons OmniBooth, un cadre de génération d'images qui permet un contrôle spatial avec une personnalisation multi-modale au niveau de l'instance. Pour toutes les instances, l'instruction multimodale peut être décrite à travers des invites textuelles ou des références d'images. Étant donné un ensemble de masques définis par l'utilisateur et des indications textuelles ou d'images associées, notre objectif est de générer une image où plusieurs objets sont positionnés à des coordonnées spécifiées et dont les attributs sont alignés précisément avec les indications correspondantes. Cette approche étend considérablement le champ de la génération texte-vers-image et l'élève à une dimension plus polyvalente et pratique en termes de contrôlabilité. Dans cet article, notre contribution principale réside dans les signaux de contrôle latents proposés, une caractéristique spatiale multidimensionnelle qui fournit une représentation unifiée pour intégrer de manière transparente les conditions spatiales, textuelles et d'image. La condition textuelle étend ControlNet pour fournir une génération ouverte au niveau de l'instance avec un vocabulaire varié. La condition d'image permet en outre un contrôle précis avec une identité personnalisée. En pratique, notre méthode donne aux utilisateurs plus de flexibilité dans la génération contrôlable, car les utilisateurs peuvent choisir des conditions multi-modales à partir de textes ou d'images selon les besoins. De plus, des expériences approfondies démontrent nos performances améliorées en termes de fidélité de synthèse d'images et d'alignement à travers différentes tâches et ensembles de données. Page du projet : https://len-li.github.io/omnibooth-web/
English
We present OmniBooth, an image generation framework that enables spatial control with instance-level multi-modal customization. For all instances, the multimodal instruction can be described through text prompts or image references. Given a set of user-defined masks and associated text or image guidance, our objective is to generate an image, where multiple objects are positioned at specified coordinates and their attributes are precisely aligned with the corresponding guidance. This approach significantly expands the scope of text-to-image generation, and elevates it to a more versatile and practical dimension in controllability. In this paper, our core contribution lies in the proposed latent control signals, a high-dimensional spatial feature that provides a unified representation to integrate the spatial, textual, and image conditions seamlessly. The text condition extends ControlNet to provide instance-level open-vocabulary generation. The image condition further enables fine-grained control with personalized identity. In practice, our method empowers users with more flexibility in controllable generation, as users can choose multi-modal conditions from text or images as needed. Furthermore, thorough experiments demonstrate our enhanced performance in image synthesis fidelity and alignment across different tasks and datasets. Project page: https://len-li.github.io/omnibooth-web/

Summary

AI-Generated Summary

PDF92November 16, 2024