ChatPaper.aiChatPaper

Переосмысление кросс-модального взаимодействия в мультимодальных диффузионных трансформерах

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

June 9, 2025
Авторы: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
cs.AI

Аннотация

Мультимодальные диффузионные трансформеры (MM-DiT) достигли значительных успехов в генерации визуального контента на основе текста. Однако даже передовые модели MM-DiT, такие как FLUX, сталкиваются с трудностями в достижении точного соответствия между текстовыми запросами и генерируемым контентом. Мы выявили две ключевые проблемы в механизме внимания MM-DiT: 1) подавление кросс-модального внимания из-за дисбаланса токенов между визуальной и текстовой модальностями и 2) отсутствие временнóй адаптации весов внимания, что препятствует выравниванию. Для решения этих проблем мы предлагаем метод Temperature-Adjusted Cross-modal Attention (TACA), эффективный по параметрам подход, который динамически балансирует мультимодальные взаимодействия с помощью масштабирования температуры и временнóй адаптации. В сочетании с тонкой настройкой LoRA, TACA значительно улучшает соответствие текста и изображения на бенчмарке T2I-CompBench при минимальных вычислительных затратах. Мы протестировали TACA на передовых моделях, таких как FLUX и SD3.5, продемонстрировав её способность улучшать соответствие изображения и текста в аспектах внешнего вида объектов, связывания атрибутов и пространственных отношений. Наши результаты подчеркивают важность балансировки кросс-модального внимания для повышения семантической точности в моделях диффузии текст-изображение. Наш код доступен по адресу https://github.com/Vchitect/TACA.
English
Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress in text-driven visual generation. However, even state-of-the-art MM-DiT models like FLUX struggle with achieving precise alignment between text prompts and generated content. We identify two key issues in the attention mechanism of MM-DiT, namely 1) the suppression of cross-modal attention due to token imbalance between visual and textual modalities and 2) the lack of timestep-aware attention weighting, which hinder the alignment. To address these issues, we propose Temperature-Adjusted Cross-modal Attention (TACA), a parameter-efficient method that dynamically rebalances multimodal interactions through temperature scaling and timestep-dependent adjustment. When combined with LoRA fine-tuning, TACA significantly enhances text-image alignment on the T2I-CompBench benchmark with minimal computational overhead. We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating its ability to improve image-text alignment in terms of object appearance, attribute binding, and spatial relationships. Our findings highlight the importance of balancing cross-modal attention in improving semantic fidelity in text-to-image diffusion models. Our codes are publicly available at https://github.com/Vchitect/TACA
PDF172June 10, 2025