ChatPaper.aiChatPaper

OmniBooth: Aprendizado de Controle Latente para Síntese de Imagens com Instrução Multi-modal

OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction

October 7, 2024
Autores: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen
cs.AI

Resumo

Apresentamos o OmniBooth, um framework de geração de imagens que possibilita controle espacial com personalização multi-modal ao nível da instância. Para todas as instâncias, a instrução multimodal pode ser descrita por meio de prompts de texto ou referências de imagem. Dado um conjunto de máscaras definidas pelo usuário e orientações de texto ou imagem associadas, nosso objetivo é gerar uma imagem, onde múltiplos objetos são posicionados em coordenadas especificadas e seus atributos estão alinhados precisamente com as orientações correspondentes. Esta abordagem expande significativamente o escopo da geração de texto para imagem, elevando-a a uma dimensão mais versátil e prática em termos de controlabilidade. Neste artigo, nossa contribuição principal reside nos sinais de controle latentes propostos, um recurso espacial de alta dimensão que fornece uma representação unificada para integrar as condições espaciais, textuais e de imagem de forma contínua. A condição de texto estende o ControlNet para fornecer geração de vocabulário aberto ao nível da instância. A condição de imagem ainda possibilita controle refinado com identidade personalizada. Na prática, nosso método capacita os usuários com mais flexibilidade na geração controlável, pois os usuários podem escolher condições multi-modais a partir de texto ou imagens conforme necessário. Além disso, experimentos detalhados demonstram nosso desempenho aprimorado na fidelidade de síntese de imagem e alinhamento em diferentes tarefas e conjuntos de dados. Página do projeto: https://len-li.github.io/omnibooth-web/
English
We present OmniBooth, an image generation framework that enables spatial control with instance-level multi-modal customization. For all instances, the multimodal instruction can be described through text prompts or image references. Given a set of user-defined masks and associated text or image guidance, our objective is to generate an image, where multiple objects are positioned at specified coordinates and their attributes are precisely aligned with the corresponding guidance. This approach significantly expands the scope of text-to-image generation, and elevates it to a more versatile and practical dimension in controllability. In this paper, our core contribution lies in the proposed latent control signals, a high-dimensional spatial feature that provides a unified representation to integrate the spatial, textual, and image conditions seamlessly. The text condition extends ControlNet to provide instance-level open-vocabulary generation. The image condition further enables fine-grained control with personalized identity. In practice, our method empowers users with more flexibility in controllable generation, as users can choose multi-modal conditions from text or images as needed. Furthermore, thorough experiments demonstrate our enhanced performance in image synthesis fidelity and alignment across different tasks and datasets. Project page: https://len-li.github.io/omnibooth-web/

Summary

AI-Generated Summary

PDF92November 16, 2024