ChatPaper.aiChatPaper

EMMA : Votre modèle de diffusion texte-image peut secrètement accepter des invites multimodales

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts

June 13, 2024
papers.authors: Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
cs.AI

papers.abstract

Les récentes avancées en génération d'images ont permis la création d'images de haute qualité à partir de conditions textuelles. Cependant, face à des conditions multi-modales, telles que du texte combiné à des apparences de référence, les méthodes existantes peinent à équilibrer efficacement plusieurs conditions, montrant généralement une préférence pour une modalité au détriment des autres. Pour relever ce défi, nous présentons EMMA, un nouveau modèle de génération d'images acceptant des prompts multi-modaux, construit sur le modèle de diffusion texte-à-image (T2I) de pointe, ELLA. EMMA intègre de manière fluide des modalités supplémentaires aux côtés du texte pour guider la génération d'images grâce à une conception innovante de Connecteur de Caractéristiques Multi-modales, qui intègre efficacement les informations textuelles et modales supplémentaires en utilisant un mécanisme d'attention spécial. En gelant tous les paramètres du modèle de diffusion T2I original et en ajustant uniquement quelques couches supplémentaires, nous révélons une découverte intéressante : le modèle de diffusion T2I pré-entraîné peut secrètement accepter des prompts multi-modaux. Cette propriété intéressante facilite l'adaptation à différents frameworks existants, faisant d'EMMA un outil flexible et efficace pour produire des images et même des vidéos personnalisées et conscientes du contexte. De plus, nous introduisons une stratégie pour assembler des modules EMMA appris afin de produire des images conditionnées par plusieurs modalités simultanément, éliminant ainsi le besoin d'un entraînement supplémentaire avec des prompts multi-modaux mixtes. Des expériences approfondies démontrent l'efficacité d'EMMA à maintenir une haute fidélité et des détails dans les images générées, mettant en évidence son potentiel en tant que solution robuste pour des tâches avancées de génération d'images conditionnées multi-modales.
English
Recent advancements in image generation have enabled the creation of high-quality images from text conditions. However, when facing multi-modal conditions, such as text combined with reference appearances, existing methods struggle to balance multiple conditions effectively, typically showing a preference for one modality over others. To address this challenge, we introduce EMMA, a novel image generation model accepting multi-modal prompts built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA seamlessly incorporates additional modalities alongside text to guide image generation through an innovative Multi-modal Feature Connector design, which effectively integrates textual and supplementary modal information using a special attention mechanism. By freezing all parameters in the original T2I diffusion model and only adjusting some additional layers, we reveal an interesting finding that the pre-trained T2I diffusion model can secretly accept multi-modal prompts. This interesting property facilitates easy adaptation to different existing frameworks, making EMMA a flexible and effective tool for producing personalized and context-aware images and even videos. Additionally, we introduce a strategy to assemble learned EMMA modules to produce images conditioned on multiple modalities simultaneously, eliminating the need for additional training with mixed multi-modal prompts. Extensive experiments demonstrate the effectiveness of EMMA in maintaining high fidelity and detail in generated images, showcasing its potential as a robust solution for advanced multi-modal conditional image generation tasks.
PDF143December 6, 2024