ChatPaper.aiChatPaper

EMMA: Ihr Text-zu-Bild-Diffusionsmodell kann heimlich Multi-Modale Anfragen akzeptieren.

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts

June 13, 2024
papers.authors: Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
cs.AI

papers.abstract

In jüngster Zeit haben Fortschritte in der Bildgenerierung die Erstellung hochwertiger Bilder aus Textbedingungen ermöglicht. Bei der Bewältigung multimodaler Bedingungen, wie Text in Kombination mit Referenzerscheinungen, haben bestehende Methoden Schwierigkeiten, mehrere Bedingungen effektiv auszubalancieren und zeigen in der Regel eine Präferenz für eine Modalität gegenüber anderen. Um diese Herausforderung anzugehen, stellen wir EMMA vor, ein neuartiges Bildgenerierungsmodell, das multimodale Eingaben akzeptiert und auf dem modernsten Text-zu-Bild (T2I) Diffusionsmodell, ELLA, aufbaut. EMMA integriert nahtlos zusätzliche Modalitäten neben Text, um die Bildgenerierung durch ein innovatives Multi-modal Feature Connector-Design zu lenken, das textuelle und ergänzende Modalinformationen effektiv mithilfe eines speziellen Aufmerksamkeitsmechanismus integriert. Durch das Einfrieren aller Parameter im ursprünglichen T2I Diffusionsmodell und nur Anpassen einiger zusätzlicher Schichten enthüllen wir eine interessante Entdeckung, dass das vorab trainierte T2I Diffusionsmodell heimlich multimodale Eingaben akzeptieren kann. Diese interessante Eigenschaft erleichtert die Anpassung an verschiedene bestehende Frameworks und macht EMMA zu einem flexiblen und effektiven Werkzeug zur Erzeugung personalisierter und kontextbewusster Bilder und sogar Videos. Darüber hinaus stellen wir eine Strategie vor, um gelernte EMMA-Module zusammenzusetzen, um Bilder gleichzeitig auf mehrere Modalitäten bedingt zu erzeugen, wodurch die Notwendigkeit für zusätzliches Training mit gemischten multimodalen Eingaben entfällt. Umfangreiche Experimente zeigen die Wirksamkeit von EMMA bei der Aufrechterhaltung hoher Treue und Detailtreue in generierten Bildern und zeigen ihr Potenzial als robuste Lösung für fortgeschrittene multimodale bedingte Bildgenerierungsaufgaben.
English
Recent advancements in image generation have enabled the creation of high-quality images from text conditions. However, when facing multi-modal conditions, such as text combined with reference appearances, existing methods struggle to balance multiple conditions effectively, typically showing a preference for one modality over others. To address this challenge, we introduce EMMA, a novel image generation model accepting multi-modal prompts built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA seamlessly incorporates additional modalities alongside text to guide image generation through an innovative Multi-modal Feature Connector design, which effectively integrates textual and supplementary modal information using a special attention mechanism. By freezing all parameters in the original T2I diffusion model and only adjusting some additional layers, we reveal an interesting finding that the pre-trained T2I diffusion model can secretly accept multi-modal prompts. This interesting property facilitates easy adaptation to different existing frameworks, making EMMA a flexible and effective tool for producing personalized and context-aware images and even videos. Additionally, we introduce a strategy to assemble learned EMMA modules to produce images conditioned on multiple modalities simultaneously, eliminating the need for additional training with mixed multi-modal prompts. Extensive experiments demonstrate the effectiveness of EMMA in maintaining high fidelity and detail in generated images, showcasing its potential as a robust solution for advanced multi-modal conditional image generation tasks.
PDF143December 6, 2024