¿Realmente Ven y Oyen los Modelos de Lenguaje de Gran Tamaño Audiovisuales?
Do Audio-Visual Large Language Models Really See and Hear?
April 3, 2026
Autores: Ramaneswaran Selvakumar, Kaousheik Jayakumar, S Sakshi, Sreyan Ghosh, Ruohan Gao, Dinesh Manocha
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala Audiovisuales (AVLLMs) están surgiendo como interfaces unificadas para la percepción multimodal. Presentamos el primer estudio de interpretabilidad mecanicista de los AVLLMs, analizando cómo las características de audio y vídeo evolucionan y se fusionan a través de las diferentes capas de un AVLLM para producir las salidas de texto finales. Descubrimos que, aunque los AVLLMs codifican una rica semántica de audio en las capas intermedias, estas capacidades en gran medida no llegan a manifestarse en la generación de texto final cuando el audio entra en conflicto con la visión. Los análisis de *probing* muestran que existe información latente de audio útil, pero las capas de fusión más profundas privilegian desproporcionadamente las representaciones visuales, que tienden a suprimir las señales de audio. Rastreamos este desequilibrio hasta el entrenamiento: el comportamiento de audio del AVLLM coincide fuertemente con el de su modelo base de visión-lenguaje, lo que indica una alineación adicional limitada con la supervisión de audio. Nuestros hallazgos revelan un sesgo modal fundamental en los AVLLMs y aportan nuevas perspectivas mecanicistas sobre cómo los LLM multimodales integran el audio y la visión.
English
Audio-Visual Large Language Models (AVLLMs) are emerging as unified interfaces to multimodal perception. We present the first mechanistic interpretability study of AVLLMs, analyzing how audio and visual features evolve and fuse through different layers of an AVLLM to produce the final text outputs. We find that although AVLLMs encode rich audio semantics at intermediate layers, these capabilities largely fail to surface in the final text generation when audio conflicts with vision. Probing analyses show that useful latent audio information is present, but deeper fusion layers disproportionately privilege visual representations that tend to suppress audio cues. We further trace this imbalance to training: the AVLLM's audio behavior strongly matches its vision-language base model, indicating limited additional alignment to audio supervision. Our findings reveal a fundamental modality bias in AVLLMs and provide new mechanistic insights into how multimodal LLMs integrate audio and vision.