ChatPaper.aiChatPaper

EMMA: Tu modelo de difusión de texto a imagen puede aceptar secretamente indicaciones multimodales

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts

June 13, 2024
Autores: Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
cs.AI

Resumen

Los recientes avances en generación de imágenes han permitido la creación de imágenes de alta calidad a partir de condiciones de texto. Sin embargo, al enfrentarse a condiciones multimodales, como texto combinado con apariencias de referencia, los métodos existentes tienen dificultades para equilibrar múltiples condiciones de manera efectiva, mostrando típicamente una preferencia por una modalidad sobre las demás. Para abordar este desafío, presentamos EMMA, un novedoso modelo de generación de imágenes que acepta indicaciones multimodales, construido sobre el modelo de difusión de texto a imagen (T2I) de última generación, ELLA. EMMA incorpora de manera fluida modalidades adicionales junto con el texto para guiar la generación de imágenes a través de un innovador diseño de Conector de Características Multimodales, que integra efectivamente la información textual y de modalidades suplementarias utilizando un mecanismo de atención especial. Al congelar todos los parámetros en el modelo de difusión T2I original y ajustar solo algunas capas adicionales, revelamos un hallazgo interesante: el modelo de difusión T2I preentrenado puede aceptar secretamente indicaciones multimodales. Esta propiedad interesante facilita la adaptación a diferentes marcos existentes, convirtiendo a EMMA en una herramienta flexible y efectiva para producir imágenes personalizadas y conscientes del contexto, e incluso videos. Además, introducimos una estrategia para ensamblar módulos EMMA aprendidos para producir imágenes condicionadas en múltiples modalidades simultáneamente, eliminando la necesidad de entrenamiento adicional con indicaciones multimodales mixtas. Experimentos extensos demuestran la efectividad de EMMA para mantener una alta fidelidad y detalle en las imágenes generadas, mostrando su potencial como una solución robusta para tareas avanzadas de generación de imágenes condicionadas multimodalmente.
English
Recent advancements in image generation have enabled the creation of high-quality images from text conditions. However, when facing multi-modal conditions, such as text combined with reference appearances, existing methods struggle to balance multiple conditions effectively, typically showing a preference for one modality over others. To address this challenge, we introduce EMMA, a novel image generation model accepting multi-modal prompts built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA seamlessly incorporates additional modalities alongside text to guide image generation through an innovative Multi-modal Feature Connector design, which effectively integrates textual and supplementary modal information using a special attention mechanism. By freezing all parameters in the original T2I diffusion model and only adjusting some additional layers, we reveal an interesting finding that the pre-trained T2I diffusion model can secretly accept multi-modal prompts. This interesting property facilitates easy adaptation to different existing frameworks, making EMMA a flexible and effective tool for producing personalized and context-aware images and even videos. Additionally, we introduce a strategy to assemble learned EMMA modules to produce images conditioned on multiple modalities simultaneously, eliminating the need for additional training with mixed multi-modal prompts. Extensive experiments demonstrate the effectiveness of EMMA in maintaining high fidelity and detail in generated images, showcasing its potential as a robust solution for advanced multi-modal conditional image generation tasks.
PDF143December 6, 2024