EMMA: Seu Modelo de Difusão Texto-para-Imagem Pode Secretamente Aceitar Prompts Multimodais
EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts
June 13, 2024
Autores: Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
cs.AI
Resumo
Avanços recentes na geração de imagens permitiram a criação de imagens de alta qualidade a partir de condições textuais. No entanto, ao lidar com condições multimodais, como texto combinado com aparências de referência, os métodos existentes lutam para equilibrar múltiplas condições de forma eficaz, geralmente mostrando preferência por uma modalidade em detrimento das outras. Para enfrentar esse desafio, introduzimos o EMMA, um novo modelo de geração de imagens que aceita prompts multimodais, construído sobre o modelo de difusão texto-para-imagem (T2I) de última geração, ELLA. O EMMA incorpora de forma contínua modalidades adicionais ao lado do texto para guiar a geração de imagens por meio de um inovador design de Conector de Recursos Multimodais, que integra efetivamente informações textuais e de modalidades suplementares usando um mecanismo de atenção especial. Ao congelar todos os parâmetros no modelo de difusão T2I original e ajustar apenas algumas camadas adicionais, revelamos uma descoberta interessante: o modelo de difusão T2I pré-treinado pode secretamente aceitar prompts multimodais. Essa propriedade interessante facilita a adaptação fácil a diferentes frameworks existentes, tornando o EMMA uma ferramenta flexível e eficaz para produzir imagens e até vídeos personalizados e contextualmente conscientes. Além disso, introduzimos uma estratégia para montar módulos EMMA aprendidos para produzir imagens condicionadas em múltiplas modalidades simultaneamente, eliminando a necessidade de treinamento adicional com prompts multimodais mistos. Experimentos extensivos demonstram a eficácia do EMMA em manter alta fidelidade e detalhes nas imagens geradas, mostrando seu potencial como uma solução robusta para tarefas avançadas de geração de imagens condicionadas multimodais.
English
Recent advancements in image generation have enabled the creation of
high-quality images from text conditions. However, when facing multi-modal
conditions, such as text combined with reference appearances, existing methods
struggle to balance multiple conditions effectively, typically showing a
preference for one modality over others. To address this challenge, we
introduce EMMA, a novel image generation model accepting multi-modal prompts
built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA
seamlessly incorporates additional modalities alongside text to guide image
generation through an innovative Multi-modal Feature Connector design, which
effectively integrates textual and supplementary modal information using a
special attention mechanism. By freezing all parameters in the original T2I
diffusion model and only adjusting some additional layers, we reveal an
interesting finding that the pre-trained T2I diffusion model can secretly
accept multi-modal prompts. This interesting property facilitates easy
adaptation to different existing frameworks, making EMMA a flexible and
effective tool for producing personalized and context-aware images and even
videos. Additionally, we introduce a strategy to assemble learned EMMA modules
to produce images conditioned on multiple modalities simultaneously,
eliminating the need for additional training with mixed multi-modal prompts.
Extensive experiments demonstrate the effectiveness of EMMA in maintaining high
fidelity and detail in generated images, showcasing its potential as a robust
solution for advanced multi-modal conditional image generation tasks.