ChatPaper.aiChatPaper

Repenser l'interaction intermodale dans les transformeurs de diffusion multimodaux

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

June 9, 2025
Auteurs: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
cs.AI

Résumé

Les Transformeurs de Diffusion Multimodaux (MM-DiTs) ont réalisé des progrès remarquables dans la génération visuelle pilotée par texte. Cependant, même les modèles MM-DiT de pointe comme FLUX peinent à atteindre un alignement précis entre les invites textuelles et le contenu généré. Nous identifions deux problèmes clés dans le mécanisme d'attention des MM-DiT, à savoir 1) la suppression de l'attention intermodale due au déséquilibre des tokens entre les modalités visuelles et textuelles, et 2) l'absence de pondération d'attention sensible au pas de temps, qui entravent cet alignement. Pour résoudre ces problèmes, nous proposons l'Attention Intermodale à Température Ajustée (TACA), une méthode efficace en paramètres qui rééquilibre dynamiquement les interactions multimodales grâce à une mise à l'échelle de la température et un ajustement dépendant du pas de temps. Combinée à un affinage LoRA, TACA améliore significativement l'alignement texte-image sur le benchmark T2I-CompBench avec un surcoût computationnel minimal. Nous avons testé TACA sur des modèles de pointe comme FLUX et SD3.5, démontrant sa capacité à améliorer l'alignement image-texte en termes d'apparence des objets, de liaison des attributs et de relations spatiales. Nos résultats soulignent l'importance de l'équilibrage de l'attention intermodale pour améliorer la fidélité sémantique dans les modèles de diffusion texte-à-image. Nos codes sont disponibles publiquement à l'adresse https://github.com/Vchitect/TACA.
English
Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress in text-driven visual generation. However, even state-of-the-art MM-DiT models like FLUX struggle with achieving precise alignment between text prompts and generated content. We identify two key issues in the attention mechanism of MM-DiT, namely 1) the suppression of cross-modal attention due to token imbalance between visual and textual modalities and 2) the lack of timestep-aware attention weighting, which hinder the alignment. To address these issues, we propose Temperature-Adjusted Cross-modal Attention (TACA), a parameter-efficient method that dynamically rebalances multimodal interactions through temperature scaling and timestep-dependent adjustment. When combined with LoRA fine-tuning, TACA significantly enhances text-image alignment on the T2I-CompBench benchmark with minimal computational overhead. We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating its ability to improve image-text alignment in terms of object appearance, attribute binding, and spatial relationships. Our findings highlight the importance of balancing cross-modal attention in improving semantic fidelity in text-to-image diffusion models. Our codes are publicly available at https://github.com/Vchitect/TACA
PDF172June 10, 2025