OmniBooth: Apprendimento del Controllo Latente per la Sintesi di Immagini con Istruzioni Multi-Modalità
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction
October 7, 2024
Autori: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen
cs.AI
Abstract
Presentiamo OmniBooth, un framework di generazione di immagini che consente il controllo spaziale con personalizzazione multi-modale a livello di istanza. Per tutte le istanze, l'istruzione multimodale può essere descritta tramite prompt di testo o riferimenti di immagini. Date un insieme di maschere definite dall'utente e relative istruzioni di testo o immagini, il nostro obiettivo è generare un'immagine in cui più oggetti siano posizionati alle coordinate specificate e i loro attributi siano allineati con precisione alle relative istruzioni. Questo approccio espande significativamente l'ambito della generazione di testo in immagine, portandolo a una dimensione più versatile e pratica in termini di controllabilità. In questo articolo, il nostro contributo principale risiede nei segnali di controllo latenti proposti, una caratteristica spaziale ad alta dimensionalità che fornisce una rappresentazione unificata per integrare in modo fluido le condizioni spaziali, testuali e di immagine. La condizione di testo estende ControlNet per fornire una generazione a livello di istanza con vocabolario aperto. La condizione di immagine consente ulteriormente un controllo dettagliato con identità personalizzata. Nella pratica, il nostro metodo offre agli utenti maggiore flessibilità nella generazione controllabile, poiché gli utenti possono scegliere condizioni multi-modali da testo o immagini secondo necessità. Inoltre, esperimenti approfonditi dimostrano le nostre prestazioni migliorate nella fedeltà di sintesi delle immagini e nell'allineamento tra diverse attività e set di dati. Pagina del progetto: https://len-li.github.io/omnibooth-web/
English
We present OmniBooth, an image generation framework that enables spatial
control with instance-level multi-modal customization. For all instances, the
multimodal instruction can be described through text prompts or image
references. Given a set of user-defined masks and associated text or image
guidance, our objective is to generate an image, where multiple objects are
positioned at specified coordinates and their attributes are precisely aligned
with the corresponding guidance. This approach significantly expands the scope
of text-to-image generation, and elevates it to a more versatile and practical
dimension in controllability. In this paper, our core contribution lies in the
proposed latent control signals, a high-dimensional spatial feature that
provides a unified representation to integrate the spatial, textual, and image
conditions seamlessly. The text condition extends ControlNet to provide
instance-level open-vocabulary generation. The image condition further enables
fine-grained control with personalized identity. In practice, our method
empowers users with more flexibility in controllable generation, as users can
choose multi-modal conditions from text or images as needed. Furthermore,
thorough experiments demonstrate our enhanced performance in image synthesis
fidelity and alignment across different tasks and datasets. Project page:
https://len-li.github.io/omnibooth-web/