Algunas Modalidades son Más Iguales que Otras: Decodificación y Arquitectura de la Integración Multimodal en MLLMs
Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs
November 28, 2025
Autores: Tianle Chen, Chaitanya Chakka, Arjun Reddy Akula, Xavier Thomas, Deepti Ghadiyaram
cs.AI
Resumen
A pesar de los notables avances en los Modelos de Lenguaje Grandes Multimodales (MLLMs), una pregunta fundamental permanece: ¿son los MLLMs robustos frente a modalidades contradictorias? Para estudiar esto rigurosamente, presentamos MMA-Bench, que comprende videos y tareas que exploran la dependencia de un modelo en modalidades específicas. Utilizando técnicas de interpretabilidad de caja negra y caja blanca, proporcionamos un análisis crítico de la fragilidad de MLLMs tanto de código abierto como cerrado. Demostramos que los MLLMs actuales tienen dificultades con pares audio-visuales desalineados y texto engañoso simple, careciendo así de un razonamiento multimodal robusto. Basándonos en estos hallazgos, proponemos una estrategia de ajuste por alineamiento modal para enseñar al modelo cuándo priorizar, aprovechar o ignorar señales de modalidades específicas. A través de extensos experimentos y análisis, mostramos que nuestro ajuste de alineamiento produce una base multimodal demostrablemente más sólida. Este trabajo proporciona tanto herramientas de interpretabilidad como un camino claro hacia el desarrollo de MLLMs con un razonamiento cruzado modal intrínsecamente confiable. El código y el conjunto de datos estarán disponibles públicamente.
English
Despite remarkable advancements in Multimodal Large Language Models (MLLMs), a fundamental question remains: are MLLMs robust to contradicting modalities? To rigorously study this, we introduce MMA-Bench comprising videos and tasks that probe a model's reliance on specific modalities. Using black-box and white-box interpretability techniques, we provide a critical analysis of the brittleness of both open- and closed-sourced MLLMs. We show that current MLLMs struggle under misaligned audio-visual pairs and simple misleading text, thereby lacking robust multi-modal reasoning. Building on these findings, we propose a modality alignment tuning strategy to teach the model when to prioritize, leverage, or ignore specific modality cues. Through extensive experiments and analysis, we show that our alignment tuning yields demonstrably stronger multimodal grounding. This work provides both interpretability tools and a clear path toward developing MLLMs with intrinsically reliable cross-modal reasoning. Code and dataset will be publicly available.