ChatPaper.aiChatPaper

EMMA: Seu Modelo de Difusão Texto-para-Imagem Pode Secretamente Aceitar Prompts Multimodais

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts

June 13, 2024
Autores: Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
cs.AI

Resumo

Avanços recentes na geração de imagens permitiram a criação de imagens de alta qualidade a partir de condições textuais. No entanto, ao lidar com condições multimodais, como texto combinado com aparências de referência, os métodos existentes lutam para equilibrar múltiplas condições de forma eficaz, geralmente mostrando preferência por uma modalidade em detrimento das outras. Para enfrentar esse desafio, introduzimos o EMMA, um novo modelo de geração de imagens que aceita prompts multimodais, construído sobre o modelo de difusão texto-para-imagem (T2I) de última geração, ELLA. O EMMA incorpora de forma contínua modalidades adicionais ao lado do texto para guiar a geração de imagens por meio de um inovador design de Conector de Recursos Multimodais, que integra efetivamente informações textuais e de modalidades suplementares usando um mecanismo de atenção especial. Ao congelar todos os parâmetros no modelo de difusão T2I original e ajustar apenas algumas camadas adicionais, revelamos uma descoberta interessante: o modelo de difusão T2I pré-treinado pode secretamente aceitar prompts multimodais. Essa propriedade interessante facilita a adaptação fácil a diferentes frameworks existentes, tornando o EMMA uma ferramenta flexível e eficaz para produzir imagens e até vídeos personalizados e contextualmente conscientes. Além disso, introduzimos uma estratégia para montar módulos EMMA aprendidos para produzir imagens condicionadas em múltiplas modalidades simultaneamente, eliminando a necessidade de treinamento adicional com prompts multimodais mistos. Experimentos extensivos demonstram a eficácia do EMMA em manter alta fidelidade e detalhes nas imagens geradas, mostrando seu potencial como uma solução robusta para tarefas avançadas de geração de imagens condicionadas multimodais.
English
Recent advancements in image generation have enabled the creation of high-quality images from text conditions. However, when facing multi-modal conditions, such as text combined with reference appearances, existing methods struggle to balance multiple conditions effectively, typically showing a preference for one modality over others. To address this challenge, we introduce EMMA, a novel image generation model accepting multi-modal prompts built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA seamlessly incorporates additional modalities alongside text to guide image generation through an innovative Multi-modal Feature Connector design, which effectively integrates textual and supplementary modal information using a special attention mechanism. By freezing all parameters in the original T2I diffusion model and only adjusting some additional layers, we reveal an interesting finding that the pre-trained T2I diffusion model can secretly accept multi-modal prompts. This interesting property facilitates easy adaptation to different existing frameworks, making EMMA a flexible and effective tool for producing personalized and context-aware images and even videos. Additionally, we introduce a strategy to assemble learned EMMA modules to produce images conditioned on multiple modalities simultaneously, eliminating the need for additional training with mixed multi-modal prompts. Extensive experiments demonstrate the effectiveness of EMMA in maintaining high fidelity and detail in generated images, showcasing its potential as a robust solution for advanced multi-modal conditional image generation tasks.
PDF143December 6, 2024