Zien en horen audiovisuele grote taalmodellen echt?
Do Audio-Visual Large Language Models Really See and Hear?
April 3, 2026
Auteurs: Ramaneswaran Selvakumar, Kaousheik Jayakumar, S Sakshi, Sreyan Ghosh, Ruohan Gao, Dinesh Manocha
cs.AI
Samenvatting
Audio-visuele grote taalmodellen (AVLLM's) doen hun intrede als uniforme interfaces voor multimodale perceptie. Wij presenteren de eerste mechanistische interpreteerbaarheidsstudie van AVLLM's, waarin we analyseren hoe audio- en visuele kenmerken evolueren en fuseren door verschillende lagen van een AVLLM om de uiteindelijke tekstoutput te produceren. Wij constateren dat hoewel AVLLM's rijke audio-semantiek coderen in tussenliggende lagen, deze capaciteiten grotendeels niet tot uiting komen in de uiteindelijke tekstgeneratie wanneer audio en visie conflicteren. Probing-analyses tonen aan dat nuttige latente audio-informatie aanwezig is, maar dat diepere fusielagen visuele representaties disproportioneel bevoordelen, wat de neiging heeft audiocues te onderdrukken. Wij herleiden deze onbalans verder naar de training: het audiogedrag van de AVLLM komt sterk overeen met dat van het visie-taal-basismodel, wat wijst op beperkte aanvullende afstemming op audio-supervisie. Onze bevindingen onthullen een fundamentele modaliteitsbias in AVLLM's en bieden nieuwe mechanistische inzichten in hoe multimodale LLM's audio en visie integreren.
English
Audio-Visual Large Language Models (AVLLMs) are emerging as unified interfaces to multimodal perception. We present the first mechanistic interpretability study of AVLLMs, analyzing how audio and visual features evolve and fuse through different layers of an AVLLM to produce the final text outputs. We find that although AVLLMs encode rich audio semantics at intermediate layers, these capabilities largely fail to surface in the final text generation when audio conflicts with vision. Probing analyses show that useful latent audio information is present, but deeper fusion layers disproportionately privilege visual representations that tend to suppress audio cues. We further trace this imbalance to training: the AVLLM's audio behavior strongly matches its vision-language base model, indicating limited additional alignment to audio supervision. Our findings reveal a fundamental modality bias in AVLLMs and provide new mechanistic insights into how multimodal LLMs integrate audio and vision.