ChatPaper.aiChatPaper

Neubetrachtung der cross-modalen Interaktion in multimodalen Diffusions-Transformatoren

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

June 9, 2025
Autoren: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
cs.AI

Zusammenfassung

Multimodale Diffusions-Transformer (MM-DiTs) haben bemerkenswerte Fortschritte in der textgesteuerten visuellen Generierung erzielt. Allerdings haben selbst state-of-the-art MM-DiT-Modelle wie FLUX Schwierigkeiten, eine präzise Ausrichtung zwischen Textprompts und generierten Inhalten zu erreichen. Wir identifizieren zwei zentrale Probleme im Aufmerksamkeitsmechanismus von MM-DiT, nämlich 1) die Unterdrückung der cross-modalen Aufmerksamkeit aufgrund von Token-Ungleichgewichten zwischen visuellen und textuellen Modalitäten und 2) das Fehlen einer zeitstufenabhängigen Aufmerksamkeitsgewichtung, was die Ausrichtung behindert. Um diese Probleme zu lösen, schlagen wir Temperature-Adjusted Cross-modal Attention (TACA) vor, eine parameter-effiziente Methode, die multimodale Interaktionen durch Temperaturskalierung und zeitstufenabhängige Anpassung dynamisch neu ausbalanciert. In Kombination mit LoRA-Fine-Tuning verbessert TACA die Text-Bild-Ausrichtung auf dem T2I-CompBench-Benchmark erheblich bei minimalem Rechenaufwand. Wir haben TACA an state-of-the-art Modellen wie FLUX und SD3.5 getestet und seine Fähigkeit zur Verbesserung der Bild-Text-Ausrichtung in Bezug auf Objekterscheinung, Attributbindung und räumliche Beziehungen nachgewiesen. Unsere Ergebnisse unterstreichen die Bedeutung des Ausgleichs der cross-modalen Aufmerksamkeit für die Verbesserung der semantischen Treue in Text-zu-Bild-Diffusionsmodellen. Unsere Codes sind öffentlich verfügbar unter https://github.com/Vchitect/TACA.
English
Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress in text-driven visual generation. However, even state-of-the-art MM-DiT models like FLUX struggle with achieving precise alignment between text prompts and generated content. We identify two key issues in the attention mechanism of MM-DiT, namely 1) the suppression of cross-modal attention due to token imbalance between visual and textual modalities and 2) the lack of timestep-aware attention weighting, which hinder the alignment. To address these issues, we propose Temperature-Adjusted Cross-modal Attention (TACA), a parameter-efficient method that dynamically rebalances multimodal interactions through temperature scaling and timestep-dependent adjustment. When combined with LoRA fine-tuning, TACA significantly enhances text-image alignment on the T2I-CompBench benchmark with minimal computational overhead. We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating its ability to improve image-text alignment in terms of object appearance, attribute binding, and spatial relationships. Our findings highlight the importance of balancing cross-modal attention in improving semantic fidelity in text-to-image diffusion models. Our codes are publicly available at https://github.com/Vchitect/TACA
PDF172June 10, 2025