EMMA: Je tekst-naar-beeld diffusiemodel kan stiekem multimodale prompts accepteren

Samenvatting

Recente vooruitgang in beeldgeneratie heeft het mogelijk gemaakt om hoogwaardige afbeeldingen te creëren op basis van tekstcondities. Wanneer echter wordt gewerkt met multimodale condities, zoals tekst gecombineerd met referentie-uitingen, hebben bestaande methoden moeite om meerdere condities effectief in balans te brengen, waarbij meestal de voorkeur wordt gegeven aan één modaliteit boven andere. Om deze uitdaging aan te pakken, introduceren we EMMA, een nieuw beeldgeneratiemodel dat multimodale prompts accepteert en is gebaseerd op het state-of-the-art tekst-naar-beeld (T2I) diffusiemodel, ELLA. EMMA integreert naadloos aanvullende modaliteiten naast tekst om beeldgeneratie te sturen via een innovatief Multi-modale Feature Connector-ontwerp, dat tekstuele en aanvullende modale informatie effectief integreert met behulp van een speciaal aandachtmechanisme. Door alle parameters in het originele T2I diffusiemodel te bevriezen en slechts enkele aanvullende lagen aan te passen, onthullen we een interessante bevinding dat het vooraf getrainde T2I diffusiemodel stiekem multimodale prompts kan accepteren. Deze interessante eigenschap vergemakkelijkt de aanpassing aan verschillende bestaande frameworks, waardoor EMMA een flexibel en effectief hulpmiddel wordt voor het produceren van gepersonaliseerde en contextbewuste afbeeldingen en zelfs video's. Daarnaast introduceren we een strategie om geleerde EMMA-modules te assembleren om afbeeldingen te produceren die zijn geconditioneerd op meerdere modaliteiten tegelijk, waardoor extra training met gemengde multimodale prompts overbodig wordt. Uitgebreide experimenten tonen de effectiviteit van EMMA aan in het behouden van hoge trouw en detail in gegenereerde afbeeldingen, wat het potentieel ervan aantoont als een robuuste oplossing voor geavanceerde multimodale conditionele beeldgeneratietaken.

English

Recent advancements in image generation have enabled the creation of high-quality images from text conditions. However, when facing multi-modal conditions, such as text combined with reference appearances, existing methods struggle to balance multiple conditions effectively, typically showing a preference for one modality over others. To address this challenge, we introduce EMMA, a novel image generation model accepting multi-modal prompts built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA seamlessly incorporates additional modalities alongside text to guide image generation through an innovative Multi-modal Feature Connector design, which effectively integrates textual and supplementary modal information using a special attention mechanism. By freezing all parameters in the original T2I diffusion model and only adjusting some additional layers, we reveal an interesting finding that the pre-trained T2I diffusion model can secretly accept multi-modal prompts. This interesting property facilitates easy adaptation to different existing frameworks, making EMMA a flexible and effective tool for producing personalized and context-aware images and even videos. Additionally, we introduce a strategy to assemble learned EMMA modules to produce images conditioned on multiple modalities simultaneously, eliminating the need for additional training with mixed multi-modal prompts. Extensive experiments demonstrate the effectiveness of EMMA in maintaining high fidelity and detail in generated images, showcasing its potential as a robust solution for advanced multi-modal conditional image generation tasks.

EMMA: Je tekst-naar-beeld diffusiemodel kan stiekem multimodale prompts accepteren

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts

Samenvatting

Support