ChatPaper.aiChatPaper

Repensando a Interação Intermodal em Transformadores de Difusão Multimodal

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

June 9, 2025
Autores: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
cs.AI

Resumo

Os Transformadores de Difusão Multimodal (MM-DiTs) alcançaram progressos notáveis na geração visual orientada por texto. No entanto, mesmo modelos MM-DiT de última geração, como o FLUX, enfrentam dificuldades para alcançar um alinhamento preciso entre os prompts de texto e o conteúdo gerado. Identificamos dois problemas principais no mecanismo de atenção dos MM-DiT: 1) a supressão da atenção cruzada entre modalidades devido ao desequilíbrio de tokens entre as modalidades visual e textual, e 2) a falta de ponderação de atenção consciente do passo de tempo, o que prejudica o alinhamento. Para resolver esses problemas, propomos a Atenção Cruzada Multimodal Ajustada por Temperatura (TACA), um método eficiente em parâmetros que reequilibra dinamicamente as interações multimodais por meio de escalonamento de temperatura e ajuste dependente do passo de tempo. Quando combinada com o ajuste fino via LoRA, a TACA melhora significativamente o alinhamento texto-imagem no benchmark T2I-CompBench com um custo computacional mínimo. Testamos a TACA em modelos de última geração, como FLUX e SD3.5, demonstrando sua capacidade de melhorar o alinhamento imagem-texto em termos de aparência de objetos, vinculação de atributos e relações espaciais. Nossas descobertas destacam a importância de equilibrar a atenção cruzada entre modalidades para melhorar a fidelidade semântica em modelos de difusão texto-imagem. Nossos códigos estão disponíveis publicamente em https://github.com/Vchitect/TACA.
English
Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress in text-driven visual generation. However, even state-of-the-art MM-DiT models like FLUX struggle with achieving precise alignment between text prompts and generated content. We identify two key issues in the attention mechanism of MM-DiT, namely 1) the suppression of cross-modal attention due to token imbalance between visual and textual modalities and 2) the lack of timestep-aware attention weighting, which hinder the alignment. To address these issues, we propose Temperature-Adjusted Cross-modal Attention (TACA), a parameter-efficient method that dynamically rebalances multimodal interactions through temperature scaling and timestep-dependent adjustment. When combined with LoRA fine-tuning, TACA significantly enhances text-image alignment on the T2I-CompBench benchmark with minimal computational overhead. We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating its ability to improve image-text alignment in terms of object appearance, attribute binding, and spatial relationships. Our findings highlight the importance of balancing cross-modal attention in improving semantic fidelity in text-to-image diffusion models. Our codes are publicly available at https://github.com/Vchitect/TACA
PDF172June 10, 2025