ChatPaper.aiChatPaper

EMMA: あなたのテキストから画像への拡散モデルは、密かにマルチモーダルなプロンプトを受け入れることができる

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts

June 13, 2024
著者: Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
cs.AI

要旨

近年の画像生成技術の進展により、テキスト条件から高品質な画像を生成することが可能となった。しかし、テキストと参照外観を組み合わせたようなマルチモーダル条件に直面した場合、既存の手法は複数の条件を効果的にバランスさせることが難しく、通常は一つのモダリティを他のモダリティよりも優先してしまう。この課題に対処するため、我々はEMMAを提案する。EMMAは、最先端のテキストから画像への(T2I)拡散モデルであるELLAを基盤とした、マルチモーダルプロンプトを受け入れる新しい画像生成モデルである。EMMAは、革新的なマルチモーダル特徴コネクタ設計を通じて、テキストと追加のモダリティ情報をシームレスに統合し、特別なアテンションメカニズムを使用して画像生成を導く。元のT2I拡散モデルの全てのパラメータを凍結し、追加のレイヤーのみを調整することで、事前学習されたT2I拡散モデルが密かにマルチモーダルプロンプトを受け入れることができるという興味深い発見を明らかにした。この興味深い特性により、異なる既存のフレームワークへの容易な適応が可能となり、EMMAはパーソナライズされた文脈認識画像や動画を生成するための柔軟で効果的なツールとなっている。さらに、学習済みのEMMAモジュールを組み合わせて、複数のモダリティに同時に条件付けされた画像を生成する戦略を導入し、混合マルチモーダルプロンプトを用いた追加のトレーニングを不要とした。広範な実験により、EMMAが生成画像の高忠実度と詳細を維持する効果を実証し、高度なマルチモーダル条件付き画像生成タスクに対する堅牢なソリューションとしての潜在能力を示した。
English
Recent advancements in image generation have enabled the creation of high-quality images from text conditions. However, when facing multi-modal conditions, such as text combined with reference appearances, existing methods struggle to balance multiple conditions effectively, typically showing a preference for one modality over others. To address this challenge, we introduce EMMA, a novel image generation model accepting multi-modal prompts built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA seamlessly incorporates additional modalities alongside text to guide image generation through an innovative Multi-modal Feature Connector design, which effectively integrates textual and supplementary modal information using a special attention mechanism. By freezing all parameters in the original T2I diffusion model and only adjusting some additional layers, we reveal an interesting finding that the pre-trained T2I diffusion model can secretly accept multi-modal prompts. This interesting property facilitates easy adaptation to different existing frameworks, making EMMA a flexible and effective tool for producing personalized and context-aware images and even videos. Additionally, we introduce a strategy to assemble learned EMMA modules to produce images conditioned on multiple modalities simultaneously, eliminating the need for additional training with mixed multi-modal prompts. Extensive experiments demonstrate the effectiveness of EMMA in maintaining high fidelity and detail in generated images, showcasing its potential as a robust solution for advanced multi-modal conditional image generation tasks.

Summary

AI-Generated Summary

PDF143December 6, 2024