EMMA: Il tuo modello di diffusione testo-immagine può segretamente accettare prompt multimodali
EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts
June 13, 2024
Autori: Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
cs.AI
Abstract
I recenti progressi nella generazione di immagini hanno reso possibile la creazione di immagini di alta qualità a partire da condizioni testuali. Tuttavia, quando si affrontano condizioni multi-modali, come il testo combinato con aspetti di riferimento, i metodi esistenti faticano a bilanciare efficacemente le diverse condizioni, mostrando tipicamente una preferenza per una modalità rispetto alle altre. Per affrontare questa sfida, introduciamo EMMA, un nuovo modello di generazione di immagini che accetta prompt multi-modali, basato sul modello di diffusione testo-immagine (T2I) all'avanguardia, ELLA. EMMA incorpora in modo fluido modalità aggiuntive insieme al testo per guidare la generazione di immagini attraverso un innovativo design del Connettore di Funzionalità Multi-modale, che integra efficacemente le informazioni testuali e quelle delle modalità supplementari utilizzando un meccanismo di attenzione speciale. Congelando tutti i parametri nel modello di diffusione T2I originale e regolando solo alcuni strati aggiuntivi, riveliamo un interessante risultato: il modello di diffusione T2I pre-addestrato può segretamente accettare prompt multi-modali. Questa interessante proprietà facilita l'adattamento a diversi framework esistenti, rendendo EMMA uno strumento flessibile ed efficace per produrre immagini e persino video personalizzati e contestualmente consapevoli. Inoltre, introduciamo una strategia per assemblare moduli EMMA appresi per produrre immagini condizionate da più modalità contemporaneamente, eliminando la necessità di ulteriori addestramenti con prompt multi-modali misti. Esperimenti estesi dimostrano l'efficacia di EMMA nel mantenere alta fedeltà e dettaglio nelle immagini generate, evidenziando il suo potenziale come soluzione robusta per avanzati compiti di generazione di immagini condizionate multi-modali.
English
Recent advancements in image generation have enabled the creation of
high-quality images from text conditions. However, when facing multi-modal
conditions, such as text combined with reference appearances, existing methods
struggle to balance multiple conditions effectively, typically showing a
preference for one modality over others. To address this challenge, we
introduce EMMA, a novel image generation model accepting multi-modal prompts
built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA
seamlessly incorporates additional modalities alongside text to guide image
generation through an innovative Multi-modal Feature Connector design, which
effectively integrates textual and supplementary modal information using a
special attention mechanism. By freezing all parameters in the original T2I
diffusion model and only adjusting some additional layers, we reveal an
interesting finding that the pre-trained T2I diffusion model can secretly
accept multi-modal prompts. This interesting property facilitates easy
adaptation to different existing frameworks, making EMMA a flexible and
effective tool for producing personalized and context-aware images and even
videos. Additionally, we introduce a strategy to assemble learned EMMA modules
to produce images conditioned on multiple modalities simultaneously,
eliminating the need for additional training with mixed multi-modal prompts.
Extensive experiments demonstrate the effectiveness of EMMA in maintaining high
fidelity and detail in generated images, showcasing its potential as a robust
solution for advanced multi-modal conditional image generation tasks.