Sehen und hören audiovisuelle große Sprachmodelle wirklich?

Zusammenfassung

Audiovisuelle Large Language Models (AVLLMs) entwickeln sich zu einheitlichen Schnittstellen für multimodale Wahrnehmung. Wir präsentieren die erste mechanistische Interpretierbarkeitsstudie von AVLLMs, in der wir analysieren, wie sich Audio- und visuelle Merkmale durch verschiedene Schichten eines AVLLMs entwickeln und fusionieren, um die endgültigen Textausgaben zu erzeugen. Wir stellen fest, dass AVLLMs zwar reiche Audiosemantik in Zwischenschichten kodieren, diese Fähigkeiten jedoch bei der finalen Textgenerierung weitgehend nicht zum Tragen kommen, wenn das Audio mit dem Visuellen in Konflikt steht. Probing-Analysen zeigen, dass nützliche latente Audioinformationen vorhanden sind, aber tiefere Fusionsschichten visuelle Repräsentationen unverhältnismäßig stark bevorzugen, die tendenziell Audiohinweise unterdrücken. Wir führen dieses Ungleichgewicht auf das Training zurück: Das Audioverhalten des AVLLM stimmt stark mit seinem Vision-Language-Basismodell überein, was auf eine begrenzte zusätzliche Ausrichtung auf die Audio-Aufsicht hindeutet. Unsere Ergebnisse offenbaren eine grundlegende Modalitätsverzerrung in AVLLMs und liefern neue mechanistische Einblicke darin, wie multimodale LLMs Audio und Vision integrieren.

English

Audio-Visual Large Language Models (AVLLMs) are emerging as unified interfaces to multimodal perception. We present the first mechanistic interpretability study of AVLLMs, analyzing how audio and visual features evolve and fuse through different layers of an AVLLM to produce the final text outputs. We find that although AVLLMs encode rich audio semantics at intermediate layers, these capabilities largely fail to surface in the final text generation when audio conflicts with vision. Probing analyses show that useful latent audio information is present, but deeper fusion layers disproportionately privilege visual representations that tend to suppress audio cues. We further trace this imbalance to training: the AVLLM's audio behavior strongly matches its vision-language base model, indicating limited additional alignment to audio supervision. Our findings reveal a fundamental modality bias in AVLLMs and provide new mechanistic insights into how multimodal LLMs integrate audio and vision.

Sehen und hören audiovisuelle große Sprachmodelle wirklich?

Do Audio-Visual Large Language Models Really See and Hear?

Zusammenfassung

Support