I Modelli Linguistici Multimodali di Grande Dimensione Vedono e Sentono Davvero?

Abstract

I modelli linguistici di grandi dimensioni audiovisivi (AVLLM) stanno emergendo come interfacce unificate per la percezione multimodale. Presentiamo il primo studio di interpretabilità meccanicistica sugli AVLLM, analizzando come le caratteristiche audio e visive evolvono e si fondono attraverso i diversi strati di un AVLLM per produrre gli output testuali finali. Scopriamo che, sebbene gli AVLLM codifichino una ricca semantica audio negli strati intermedi, queste capacità in gran parte non emergono nella generazione del testo finale quando l'audio è in conflitto con la visione. Analisi di probing mostrano che sono presenti utili informazioni audio latenti, ma gli strati di fusione più profondi privilegiano sproporzionatamente le rappresentazioni visive, che tendono a sopprimere gli indizi audio. Rintracciamo ulteriormente questo squilibrio nell'addestramento: il comportamento audio dell'AVLLM corrisponde fortemente al suo modello base visione-linguaggio, indicando un limitato allineamento aggiuntivo alla supervisione audio. I nostri risultati rivelano un bias modale fondamentale negli AVLLM e forniscono nuove intuizioni meccanicistiche su come i modelli linguistici multimodali integrano audio e visione.

English

Audio-Visual Large Language Models (AVLLMs) are emerging as unified interfaces to multimodal perception. We present the first mechanistic interpretability study of AVLLMs, analyzing how audio and visual features evolve and fuse through different layers of an AVLLM to produce the final text outputs. We find that although AVLLMs encode rich audio semantics at intermediate layers, these capabilities largely fail to surface in the final text generation when audio conflicts with vision. Probing analyses show that useful latent audio information is present, but deeper fusion layers disproportionately privilege visual representations that tend to suppress audio cues. We further trace this imbalance to training: the AVLLM's audio behavior strongly matches its vision-language base model, indicating limited additional alignment to audio supervision. Our findings reveal a fundamental modality bias in AVLLMs and provide new mechanistic insights into how multimodal LLMs integrate audio and vision.

I Modelli Linguistici Multimodali di Grande Dimensione Vedono e Sentono Davvero?

Do Audio-Visual Large Language Models Really See and Hear?

Abstract

Support