Repenser l'interaction intermodale dans les transformeurs de diffusion multimodaux
Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers
June 9, 2025
Auteurs: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
cs.AI
Résumé
Les Transformeurs de Diffusion Multimodaux (MM-DiTs) ont réalisé des progrès remarquables dans la génération visuelle pilotée par texte. Cependant, même les modèles MM-DiT de pointe comme FLUX peinent à atteindre un alignement précis entre les invites textuelles et le contenu généré. Nous identifions deux problèmes clés dans le mécanisme d'attention des MM-DiT, à savoir 1) la suppression de l'attention intermodale due au déséquilibre des tokens entre les modalités visuelles et textuelles, et 2) l'absence de pondération d'attention sensible au pas de temps, qui entravent cet alignement. Pour résoudre ces problèmes, nous proposons l'Attention Intermodale à Température Ajustée (TACA), une méthode efficace en paramètres qui rééquilibre dynamiquement les interactions multimodales grâce à une mise à l'échelle de la température et un ajustement dépendant du pas de temps. Combinée à un affinage LoRA, TACA améliore significativement l'alignement texte-image sur le benchmark T2I-CompBench avec un surcoût computationnel minimal. Nous avons testé TACA sur des modèles de pointe comme FLUX et SD3.5, démontrant sa capacité à améliorer l'alignement image-texte en termes d'apparence des objets, de liaison des attributs et de relations spatiales. Nos résultats soulignent l'importance de l'équilibrage de l'attention intermodale pour améliorer la fidélité sémantique dans les modèles de diffusion texte-à-image. Nos codes sont disponibles publiquement à l'adresse https://github.com/Vchitect/TACA.
English
Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress
in text-driven visual generation. However, even state-of-the-art MM-DiT models
like FLUX struggle with achieving precise alignment between text prompts and
generated content. We identify two key issues in the attention mechanism of
MM-DiT, namely 1) the suppression of cross-modal attention due to token
imbalance between visual and textual modalities and 2) the lack of
timestep-aware attention weighting, which hinder the alignment. To address
these issues, we propose Temperature-Adjusted Cross-modal Attention
(TACA), a parameter-efficient method that dynamically rebalances multimodal
interactions through temperature scaling and timestep-dependent adjustment.
When combined with LoRA fine-tuning, TACA significantly enhances text-image
alignment on the T2I-CompBench benchmark with minimal computational overhead.
We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating
its ability to improve image-text alignment in terms of object appearance,
attribute binding, and spatial relationships. Our findings highlight the
importance of balancing cross-modal attention in improving semantic fidelity in
text-to-image diffusion models. Our codes are publicly available at
https://github.com/Vchitect/TACA