ChatPaper.aiChatPaper

OmniBooth: Het leren van latente controle voor beeldsynthese met multi-modale instructie.

OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction

October 7, 2024
Auteurs: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen
cs.AI

Samenvatting

Wij presenteren OmniBooth, een beeldgeneratieraamwerk dat ruimtelijke controle mogelijk maakt met aanpasbaarheid op multimodaal niveau op instantieniveau. Voor alle instanties kan de multimodale instructie worden beschreven aan de hand van tekstprompts of beeldreferenties. Gegeven een reeks door de gebruiker gedefinieerde maskers en bijbehorende tekst- of beeldbegeleiding, is ons doel om een afbeelding te genereren waarbij meerdere objecten op gespecificeerde coördinaten zijn geplaatst en waarvan de attributen nauwkeurig zijn uitgelijnd met de overeenkomstige begeleiding. Deze benadering breidt aanzienlijk de reikwijdte uit van tekst-naar-beeldgeneratie en verheft het naar een meer veelzijdige en praktische dimensie in controleerbaarheid. In dit artikel ligt onze kernbijdrage in de voorgestelde latente besturingsignalen, een hoog-dimensionale ruimtelijke eigenschap die een verenigde representatie biedt om de ruimtelijke, tekstuele en beeldvoorwaarden naadloos te integreren. De tekstvoorwaarde breidt ControlNet uit om generatie op instantieniveau met open woordenschat mogelijk te maken. De beeldvoorwaarde maakt verder fijnmazige controle mogelijk met gepersonaliseerde identiteit. In de praktijk geeft onze methode gebruikers meer flexibiliteit in controleerbare generatie, aangezien gebruikers multimodale voorwaarden kunnen kiezen uit tekst of beelden zoals nodig. Bovendien tonen grondige experimenten onze verbeterde prestaties aan op het gebied van beeldsynthesegetrouwheid en uitlijning over verschillende taken en datasets. Projectpagina: https://len-li.github.io/omnibooth-web/
English
We present OmniBooth, an image generation framework that enables spatial control with instance-level multi-modal customization. For all instances, the multimodal instruction can be described through text prompts or image references. Given a set of user-defined masks and associated text or image guidance, our objective is to generate an image, where multiple objects are positioned at specified coordinates and their attributes are precisely aligned with the corresponding guidance. This approach significantly expands the scope of text-to-image generation, and elevates it to a more versatile and practical dimension in controllability. In this paper, our core contribution lies in the proposed latent control signals, a high-dimensional spatial feature that provides a unified representation to integrate the spatial, textual, and image conditions seamlessly. The text condition extends ControlNet to provide instance-level open-vocabulary generation. The image condition further enables fine-grained control with personalized identity. In practice, our method empowers users with more flexibility in controllable generation, as users can choose multi-modal conditions from text or images as needed. Furthermore, thorough experiments demonstrate our enhanced performance in image synthesis fidelity and alignment across different tasks and datasets. Project page: https://len-li.github.io/omnibooth-web/

Summary

AI-Generated Summary

PDF92November 16, 2024