Replanteando la Interacción Intermodal en Transformadores de Difusión Multimodal
Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers
June 9, 2025
Autores: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
cs.AI
Resumen
Los Transformadores de Difusión Multimodal (MM-DiTs) han logrado avances notables en la generación visual impulsada por texto. Sin embargo, incluso los modelos MM-DiT más avanzados, como FLUX, enfrentan dificultades para lograr una alineación precisa entre las indicaciones de texto y el contenido generado. Identificamos dos problemas clave en el mecanismo de atención de los MM-DiT: 1) la supresión de la atención multimodal debido al desequilibrio de tokens entre las modalidades visual y textual, y 2) la falta de ponderación de atención consciente del paso de tiempo, lo que obstaculiza la alineación. Para abordar estos problemas, proponemos la Atención Multimodal Ajustada por Temperatura (TACA), un método eficiente en parámetros que reequilibra dinámicamente las interacciones multimodales mediante escalado de temperatura y ajuste dependiente del paso de tiempo. Cuando se combina con el ajuste fino de LoRA, TACA mejora significativamente la alineación texto-imagen en el benchmark T2I-CompBench con un mínimo sobrecarga computacional. Probamos TACA en modelos de vanguardia como FLUX y SD3.5, demostrando su capacidad para mejorar la alineación imagen-texto en términos de apariencia de objetos, vinculación de atributos y relaciones espaciales. Nuestros hallazgos destacan la importancia de equilibrar la atención multimodal para mejorar la fidelidad semántica en los modelos de difusión de texto a imagen. Nuestros códigos están disponibles públicamente en https://github.com/Vchitect/TACA.
English
Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress
in text-driven visual generation. However, even state-of-the-art MM-DiT models
like FLUX struggle with achieving precise alignment between text prompts and
generated content. We identify two key issues in the attention mechanism of
MM-DiT, namely 1) the suppression of cross-modal attention due to token
imbalance between visual and textual modalities and 2) the lack of
timestep-aware attention weighting, which hinder the alignment. To address
these issues, we propose Temperature-Adjusted Cross-modal Attention
(TACA), a parameter-efficient method that dynamically rebalances multimodal
interactions through temperature scaling and timestep-dependent adjustment.
When combined with LoRA fine-tuning, TACA significantly enhances text-image
alignment on the T2I-CompBench benchmark with minimal computational overhead.
We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating
its ability to improve image-text alignment in terms of object appearance,
attribute binding, and spatial relationships. Our findings highlight the
importance of balancing cross-modal attention in improving semantic fidelity in
text-to-image diffusion models. Our codes are publicly available at
https://github.com/Vchitect/TACA