Repensando a Interação Intermodal em Transformadores de Difusão Multimodal
Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers
June 9, 2025
Autores: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
cs.AI
Resumo
Os Transformadores de Difusão Multimodal (MM-DiTs) alcançaram progressos notáveis na geração visual orientada por texto. No entanto, mesmo modelos MM-DiT de última geração, como o FLUX, enfrentam dificuldades para alcançar um alinhamento preciso entre os prompts de texto e o conteúdo gerado. Identificamos dois problemas principais no mecanismo de atenção dos MM-DiT: 1) a supressão da atenção cruzada entre modalidades devido ao desequilíbrio de tokens entre as modalidades visual e textual, e 2) a falta de ponderação de atenção consciente do passo de tempo, o que prejudica o alinhamento. Para resolver esses problemas, propomos a Atenção Cruzada Multimodal Ajustada por Temperatura (TACA), um método eficiente em parâmetros que reequilibra dinamicamente as interações multimodais por meio de escalonamento de temperatura e ajuste dependente do passo de tempo. Quando combinada com o ajuste fino via LoRA, a TACA melhora significativamente o alinhamento texto-imagem no benchmark T2I-CompBench com um custo computacional mínimo. Testamos a TACA em modelos de última geração, como FLUX e SD3.5, demonstrando sua capacidade de melhorar o alinhamento imagem-texto em termos de aparência de objetos, vinculação de atributos e relações espaciais. Nossas descobertas destacam a importância de equilibrar a atenção cruzada entre modalidades para melhorar a fidelidade semântica em modelos de difusão texto-imagem. Nossos códigos estão disponíveis publicamente em https://github.com/Vchitect/TACA.
English
Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress
in text-driven visual generation. However, even state-of-the-art MM-DiT models
like FLUX struggle with achieving precise alignment between text prompts and
generated content. We identify two key issues in the attention mechanism of
MM-DiT, namely 1) the suppression of cross-modal attention due to token
imbalance between visual and textual modalities and 2) the lack of
timestep-aware attention weighting, which hinder the alignment. To address
these issues, we propose Temperature-Adjusted Cross-modal Attention
(TACA), a parameter-efficient method that dynamically rebalances multimodal
interactions through temperature scaling and timestep-dependent adjustment.
When combined with LoRA fine-tuning, TACA significantly enhances text-image
alignment on the T2I-CompBench benchmark with minimal computational overhead.
We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating
its ability to improve image-text alignment in terms of object appearance,
attribute binding, and spatial relationships. Our findings highlight the
importance of balancing cross-modal attention in improving semantic fidelity in
text-to-image diffusion models. Our codes are publicly available at
https://github.com/Vchitect/TACA