OmniBooth: Het leren van latente controle voor beeldsynthese met multi-modale instructie.
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction
October 7, 2024
Auteurs: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen
cs.AI
Samenvatting
Wij presenteren OmniBooth, een beeldgeneratieraamwerk dat ruimtelijke controle mogelijk maakt met aanpasbaarheid op multimodaal niveau op instantieniveau. Voor alle instanties kan de multimodale instructie worden beschreven aan de hand van tekstprompts of beeldreferenties. Gegeven een reeks door de gebruiker gedefinieerde maskers en bijbehorende tekst- of beeldbegeleiding, is ons doel om een afbeelding te genereren waarbij meerdere objecten op gespecificeerde coördinaten zijn geplaatst en waarvan de attributen nauwkeurig zijn uitgelijnd met de overeenkomstige begeleiding. Deze benadering breidt aanzienlijk de reikwijdte uit van tekst-naar-beeldgeneratie en verheft het naar een meer veelzijdige en praktische dimensie in controleerbaarheid. In dit artikel ligt onze kernbijdrage in de voorgestelde latente besturingsignalen, een hoog-dimensionale ruimtelijke eigenschap die een verenigde representatie biedt om de ruimtelijke, tekstuele en beeldvoorwaarden naadloos te integreren. De tekstvoorwaarde breidt ControlNet uit om generatie op instantieniveau met open woordenschat mogelijk te maken. De beeldvoorwaarde maakt verder fijnmazige controle mogelijk met gepersonaliseerde identiteit. In de praktijk geeft onze methode gebruikers meer flexibiliteit in controleerbare generatie, aangezien gebruikers multimodale voorwaarden kunnen kiezen uit tekst of beelden zoals nodig. Bovendien tonen grondige experimenten onze verbeterde prestaties aan op het gebied van beeldsynthesegetrouwheid en uitlijning over verschillende taken en datasets. Projectpagina: https://len-li.github.io/omnibooth-web/
English
We present OmniBooth, an image generation framework that enables spatial
control with instance-level multi-modal customization. For all instances, the
multimodal instruction can be described through text prompts or image
references. Given a set of user-defined masks and associated text or image
guidance, our objective is to generate an image, where multiple objects are
positioned at specified coordinates and their attributes are precisely aligned
with the corresponding guidance. This approach significantly expands the scope
of text-to-image generation, and elevates it to a more versatile and practical
dimension in controllability. In this paper, our core contribution lies in the
proposed latent control signals, a high-dimensional spatial feature that
provides a unified representation to integrate the spatial, textual, and image
conditions seamlessly. The text condition extends ControlNet to provide
instance-level open-vocabulary generation. The image condition further enables
fine-grained control with personalized identity. In practice, our method
empowers users with more flexibility in controllable generation, as users can
choose multi-modal conditions from text or images as needed. Furthermore,
thorough experiments demonstrate our enhanced performance in image synthesis
fidelity and alignment across different tasks and datasets. Project page:
https://len-li.github.io/omnibooth-web/Summary
AI-Generated Summary