Les modèles audio-linguistiques écoutent-ils ? Têtes spécialisées audio pour le pilotage adaptatif du signal sonore
Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering
March 6, 2026
Auteurs: Neta Glazer, Lenny Aharon, Ethan Fetaya
cs.AI
Résumé
Les grands modèles de langage multimodaux peuvent présenter une dominance textuelle, en s'appuyant excessivement sur des préjugés linguistiques plutôt que d'ancrer leurs prédictions dans les entrées non textuelles. Un exemple est celui des grands modèles audio-langage (LALM) où des preuves audio décisives peuvent être sous-utilisées même lorsqu'elles contiennent des informations importantes. Pour résoudre ce problème, nous utilisons l'interprétabilité mécaniste pour identifier un petit ensemble de têtes d'attention spécialisées dans l'audio, dont l'attention auditive produit un signal d'« écoute ». Nous montrons que ce signal augmente lorsque les preuves audio influencent la sortie du modèle, fournissant ainsi un indicateur d'engagement audio sous prompt standard. En tirant parti de cette localisation, nous construisons une direction de pilotage audio-silence et appliquons une intervention d'activation au moment de l'inférence à la représentation finale, amplifiant ainsi l'effet audio du modèle. Pour démontrer l'utilité de cette intervention, nous montrons sur MMAU que celle-ci améliore la précision jusqu'à +8,0 points de pourcentage sur deux LALM basés sur Qwen, sans aucune mise à jour des paramètres.
English
Multimodal large language models can exhibit text dominance, over-relying on linguistic priors instead of grounding predictions in non-text inputs. One example is large audio-language models (LALMs) where decisive audio evidence can be under-utilized even when it contains important information. To address this issue we use mechanistic interpretability to identify a small set of audio-specialist attention heads whose audio attention yields a ``listening'' signal. We show that this signal increases when audio evidence affects the model's output, providing an indicator of audio engagement under standard prompting. Leveraging this localization, we construct an audio--silence steering direction and apply an inference-time activation intervention to the final representation, amplifying the model's audio effect. To demonstrate the utility of this intervention, we show on MMAU that this improves accuracy by up to +8.0 percentage points on two Qwen-based LALMs, without any parameter updates.