ChatPaper.aiChatPaper

マルチモーダル拡散トランスフォーマーにおけるクロスモーダル相互作用の再考

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

June 9, 2025
著者: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
cs.AI

要旨

マルチモーダル拡散トランスフォーマー(MM-DiT)は、テキスト駆動の視覚生成において顕著な進歩を遂げています。しかし、FLUXのような最先端のMM-DiTモデルでさえ、テキストプロンプトと生成されたコンテンツの間の正確な整合性を達成するのに苦労しています。我々は、MM-DiTのアテンションメカニズムにおける2つの主要な問題を特定しました。1)視覚モダリティとテキストモダリティ間のトークンの不均衡によるクロスモーダルアテンションの抑制、2)タイムステップを考慮したアテンション重み付けの欠如です。これらの問題に対処するため、我々は温度スケーリングとタイムステップ依存の調整を通じてマルチモーダル相互作用を動的に再調整する、パラメータ効率の良い手法である温度調整クロスモーダルアテンション(TACA)を提案します。LoRAファインチューニングと組み合わせることで、TACAはT2I-CompBenchベンチマークにおいて最小限の計算オーバーヘッドでテキストと画像の整合性を大幅に向上させます。我々はFLUXやSD3.5のような最先端モデルでTACAをテストし、オブジェクトの外観、属性のバインディング、空間関係の観点で画像とテキストの整合性を改善する能力を実証しました。我々の研究結果は、テキストから画像への拡散モデルにおける意味的忠実性を向上させるために、クロスモーダルアテンションのバランスを取ることの重要性を強調しています。我々のコードはhttps://github.com/Vchitect/TACAで公開されています。
English
Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress in text-driven visual generation. However, even state-of-the-art MM-DiT models like FLUX struggle with achieving precise alignment between text prompts and generated content. We identify two key issues in the attention mechanism of MM-DiT, namely 1) the suppression of cross-modal attention due to token imbalance between visual and textual modalities and 2) the lack of timestep-aware attention weighting, which hinder the alignment. To address these issues, we propose Temperature-Adjusted Cross-modal Attention (TACA), a parameter-efficient method that dynamically rebalances multimodal interactions through temperature scaling and timestep-dependent adjustment. When combined with LoRA fine-tuning, TACA significantly enhances text-image alignment on the T2I-CompBench benchmark with minimal computational overhead. We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating its ability to improve image-text alignment in terms of object appearance, attribute binding, and spatial relationships. Our findings highlight the importance of balancing cross-modal attention in improving semantic fidelity in text-to-image diffusion models. Our codes are publicly available at https://github.com/Vchitect/TACA
PDF172June 10, 2025