EMMA: Je tekst-naar-beeld diffusiemodel kan stiekem multimodale prompts accepteren
EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts
June 13, 2024
Auteurs: Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
cs.AI
Samenvatting
Recente vooruitgang in beeldgeneratie heeft het mogelijk gemaakt om hoogwaardige afbeeldingen te creëren op basis van tekstcondities. Wanneer echter wordt gewerkt met multimodale condities, zoals tekst gecombineerd met referentie-uitingen, hebben bestaande methoden moeite om meerdere condities effectief in balans te brengen, waarbij meestal de voorkeur wordt gegeven aan één modaliteit boven andere. Om deze uitdaging aan te pakken, introduceren we EMMA, een nieuw beeldgeneratiemodel dat multimodale prompts accepteert en is gebaseerd op het state-of-the-art tekst-naar-beeld (T2I) diffusiemodel, ELLA. EMMA integreert naadloos aanvullende modaliteiten naast tekst om beeldgeneratie te sturen via een innovatief Multi-modale Feature Connector-ontwerp, dat tekstuele en aanvullende modale informatie effectief integreert met behulp van een speciaal aandachtmechanisme. Door alle parameters in het originele T2I diffusiemodel te bevriezen en slechts enkele aanvullende lagen aan te passen, onthullen we een interessante bevinding dat het vooraf getrainde T2I diffusiemodel stiekem multimodale prompts kan accepteren. Deze interessante eigenschap vergemakkelijkt de aanpassing aan verschillende bestaande frameworks, waardoor EMMA een flexibel en effectief hulpmiddel wordt voor het produceren van gepersonaliseerde en contextbewuste afbeeldingen en zelfs video's. Daarnaast introduceren we een strategie om geleerde EMMA-modules te assembleren om afbeeldingen te produceren die zijn geconditioneerd op meerdere modaliteiten tegelijk, waardoor extra training met gemengde multimodale prompts overbodig wordt. Uitgebreide experimenten tonen de effectiviteit van EMMA aan in het behouden van hoge trouw en detail in gegenereerde afbeeldingen, wat het potentieel ervan aantoont als een robuuste oplossing voor geavanceerde multimodale conditionele beeldgeneratietaken.
English
Recent advancements in image generation have enabled the creation of
high-quality images from text conditions. However, when facing multi-modal
conditions, such as text combined with reference appearances, existing methods
struggle to balance multiple conditions effectively, typically showing a
preference for one modality over others. To address this challenge, we
introduce EMMA, a novel image generation model accepting multi-modal prompts
built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA
seamlessly incorporates additional modalities alongside text to guide image
generation through an innovative Multi-modal Feature Connector design, which
effectively integrates textual and supplementary modal information using a
special attention mechanism. By freezing all parameters in the original T2I
diffusion model and only adjusting some additional layers, we reveal an
interesting finding that the pre-trained T2I diffusion model can secretly
accept multi-modal prompts. This interesting property facilitates easy
adaptation to different existing frameworks, making EMMA a flexible and
effective tool for producing personalized and context-aware images and even
videos. Additionally, we introduce a strategy to assemble learned EMMA modules
to produce images conditioned on multiple modalities simultaneously,
eliminating the need for additional training with mixed multi-modal prompts.
Extensive experiments demonstrate the effectiveness of EMMA in maintaining high
fidelity and detail in generated images, showcasing its potential as a robust
solution for advanced multi-modal conditional image generation tasks.