ChatPaper.aiChatPaper

다중모달 디퓨전 트랜스포머에서의 교차모달 상호작용 재고

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

June 9, 2025
저자: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
cs.AI

초록

멀티모달 디퓨전 트랜스포머(MM-DiT)는 텍스트 기반 시각적 생성 분야에서 놀라운 진전을 이루어냈습니다. 그러나 FLUX와 같은 최첨단 MM-DiT 모델들조차도 텍스트 프롬프트와 생성된 콘텐츠 간의 정확한 정렬을 달성하는 데 어려움을 겪고 있습니다. 우리는 MM-DiT의 어텐션 메커니즘에서 두 가지 주요 문제를 확인했습니다: 1) 시각적 및 텍스트 모달리티 간의 토큰 불균형으로 인한 크로스모달 어텐션의 억제, 그리고 2) 시간 단계를 고려한 어텐션 가중치 부재로 인한 정렬 저해입니다. 이러한 문제를 해결하기 위해, 우리는 온도 조정을 통한 크로스모달 어텐션(TACA)을 제안합니다. 이는 파라미터 효율적인 방법으로, 온도 스케일링과 시간 단계에 따른 조정을 통해 멀티모달 상호작용을 동적으로 재조정합니다. LoRA 미세 조정과 결합할 경우, TACA는 T2I-CompBench 벤치마크에서 텍스트-이미지 정렬을 최소한의 계산 오버헤드로 크게 향상시킵니다. 우리는 FLUX와 SD3.5와 같은 최첨단 모델에서 TACA를 테스트하여, 객체 외형, 속성 바인딩, 공간 관계 측면에서 이미지-텍스트 정렬을 개선할 수 있음을 입증했습니다. 우리의 연구 결과는 텍스트-이미지 디퓨전 모델에서 의미론적 충실도를 향상시키기 위해 크로스모달 어텐션의 균형을 맞추는 것의 중요성을 강조합니다. 우리의 코드는 https://github.com/Vchitect/TACA에서 공개되어 있습니다.
English
Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress in text-driven visual generation. However, even state-of-the-art MM-DiT models like FLUX struggle with achieving precise alignment between text prompts and generated content. We identify two key issues in the attention mechanism of MM-DiT, namely 1) the suppression of cross-modal attention due to token imbalance between visual and textual modalities and 2) the lack of timestep-aware attention weighting, which hinder the alignment. To address these issues, we propose Temperature-Adjusted Cross-modal Attention (TACA), a parameter-efficient method that dynamically rebalances multimodal interactions through temperature scaling and timestep-dependent adjustment. When combined with LoRA fine-tuning, TACA significantly enhances text-image alignment on the T2I-CompBench benchmark with minimal computational overhead. We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating its ability to improve image-text alignment in terms of object appearance, attribute binding, and spatial relationships. Our findings highlight the importance of balancing cross-modal attention in improving semantic fidelity in text-to-image diffusion models. Our codes are publicly available at https://github.com/Vchitect/TACA
PDF172June 10, 2025