OmniBooth: Aprendizado de Controle Latente para Síntese de Imagens com Instrução Multi-modal
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction
October 7, 2024
Autores: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen
cs.AI
Resumo
Apresentamos o OmniBooth, um framework de geração de imagens que possibilita controle espacial com personalização multi-modal ao nível da instância. Para todas as instâncias, a instrução multimodal pode ser descrita por meio de prompts de texto ou referências de imagem. Dado um conjunto de máscaras definidas pelo usuário e orientações de texto ou imagem associadas, nosso objetivo é gerar uma imagem, onde múltiplos objetos são posicionados em coordenadas especificadas e seus atributos estão alinhados precisamente com as orientações correspondentes. Esta abordagem expande significativamente o escopo da geração de texto para imagem, elevando-a a uma dimensão mais versátil e prática em termos de controlabilidade. Neste artigo, nossa contribuição principal reside nos sinais de controle latentes propostos, um recurso espacial de alta dimensão que fornece uma representação unificada para integrar as condições espaciais, textuais e de imagem de forma contínua. A condição de texto estende o ControlNet para fornecer geração de vocabulário aberto ao nível da instância. A condição de imagem ainda possibilita controle refinado com identidade personalizada. Na prática, nosso método capacita os usuários com mais flexibilidade na geração controlável, pois os usuários podem escolher condições multi-modais a partir de texto ou imagens conforme necessário. Além disso, experimentos detalhados demonstram nosso desempenho aprimorado na fidelidade de síntese de imagem e alinhamento em diferentes tarefas e conjuntos de dados. Página do projeto: https://len-li.github.io/omnibooth-web/
English
We present OmniBooth, an image generation framework that enables spatial
control with instance-level multi-modal customization. For all instances, the
multimodal instruction can be described through text prompts or image
references. Given a set of user-defined masks and associated text or image
guidance, our objective is to generate an image, where multiple objects are
positioned at specified coordinates and their attributes are precisely aligned
with the corresponding guidance. This approach significantly expands the scope
of text-to-image generation, and elevates it to a more versatile and practical
dimension in controllability. In this paper, our core contribution lies in the
proposed latent control signals, a high-dimensional spatial feature that
provides a unified representation to integrate the spatial, textual, and image
conditions seamlessly. The text condition extends ControlNet to provide
instance-level open-vocabulary generation. The image condition further enables
fine-grained control with personalized identity. In practice, our method
empowers users with more flexibility in controllable generation, as users can
choose multi-modal conditions from text or images as needed. Furthermore,
thorough experiments demonstrate our enhanced performance in image synthesis
fidelity and alignment across different tasks and datasets. Project page:
https://len-li.github.io/omnibooth-web/Summary
AI-Generated Summary