Ripensare l'interazione cross-modale nei trasformatori di diffusione multimodale
Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers
June 9, 2025
Autori: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
cs.AI
Abstract
I Transformer Multimodali per Diffusione (MM-DiT) hanno ottenuto progressi significativi nella generazione visiva guidata da testo. Tuttavia, anche modelli MM-DiT all'avanguardia come FLUX incontrano difficoltà nel raggiungere un allineamento preciso tra i prompt testuali e il contenuto generato. Identifichiamo due problemi chiave nel meccanismo di attenzione degli MM-DiT, ovvero 1) la soppressione dell'attenzione cross-modale a causa dello squilibrio di token tra le modalità visiva e testuale e 2) la mancanza di una ponderazione dell'attenzione consapevole del timestep, che ostacolano l'allineamento. Per affrontare questi problemi, proponiamo l'Attenzione Cross-modale con Regolazione della Temperatura (TACA), un metodo efficiente in termini di parametri che ribilancia dinamicamente le interazioni multimodali attraverso il ridimensionamento della temperatura e l'adeguamento dipendente dal timestep. Quando combinato con il fine-tuning LoRA, TACA migliora significativamente l'allineamento testo-immagine sul benchmark T2I-CompBench con un sovraccarico computazionale minimo. Abbiamo testato TACA su modelli all'avanguardia come FLUX e SD3.5, dimostrando la sua capacità di migliorare l'allineamento immagine-testo in termini di aspetto degli oggetti, associazione degli attributi e relazioni spaziali. I nostri risultati evidenziano l'importanza di bilanciare l'attenzione cross-modale per migliorare la fedeltà semantica nei modelli di diffusione testo-immagine. I nostri codici sono disponibili pubblicamente all'indirizzo https://github.com/Vchitect/TACA.
English
Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress
in text-driven visual generation. However, even state-of-the-art MM-DiT models
like FLUX struggle with achieving precise alignment between text prompts and
generated content. We identify two key issues in the attention mechanism of
MM-DiT, namely 1) the suppression of cross-modal attention due to token
imbalance between visual and textual modalities and 2) the lack of
timestep-aware attention weighting, which hinder the alignment. To address
these issues, we propose Temperature-Adjusted Cross-modal Attention
(TACA), a parameter-efficient method that dynamically rebalances multimodal
interactions through temperature scaling and timestep-dependent adjustment.
When combined with LoRA fine-tuning, TACA significantly enhances text-image
alignment on the T2I-CompBench benchmark with minimal computational overhead.
We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating
its ability to improve image-text alignment in terms of object appearance,
attribute binding, and spatial relationships. Our findings highlight the
importance of balancing cross-modal attention in improving semantic fidelity in
text-to-image diffusion models. Our codes are publicly available at
https://github.com/Vchitect/TACA