Hören Audio-Sprachmodelle zu? Audio-Spezialisierte Köpfe zur adaptiven Audiosteuerung
Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering
March 6, 2026
Autoren: Neta Glazer, Lenny Aharon, Ethan Fetaya
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle können Textdominanz aufweisen, indem sie übermäßig auf sprachliche A-priori-Informationen zurückgreifen, anstatt Vorhersagen auf nicht-textuelle Eingaben zu stützen. Ein Beispiel sind große Audio-Sprach-Modelle (LALMs), bei denen entscheidende Audio-Evidenz selbst dann unzureichend genutzt werden kann, wenn sie wichtige Informationen enthält. Um dieses Problem zu adressieren, verwenden wir mechanistische Interpretierbarkeit, um eine kleine Gruppe von Audio-spezialisierten Attention-Heads zu identifizieren, deren Audio-Aufmerksamkeit ein "Zuhör"-Signal erzeugt. Wir zeigen, dass dieses Signal ansteigt, wenn Audio-Evidenz die Modellausgabe beeinflusst, und somit unter Standard-Prompting als Indikator für Audio-Engagement dient. Durch diese Lokalisierung konstruieren wir eine Audio-Stille-Lenkrichtung und wenden eine Aktivierungsintervention zur Inferenzzeit auf die finale Repräsentation an, um den Audio-Effekt des Modells zu verstärken. Um den Nutzen dieser Intervention zu demonstrieren, zeigen wir auf MMAU, dass dies die Genauigkeit zweier Qwen-basierter LALMs um bis zu +8,0 Prozentpunkte verbessert – ohne jegliche Parameteraktualisierungen.
English
Multimodal large language models can exhibit text dominance, over-relying on linguistic priors instead of grounding predictions in non-text inputs. One example is large audio-language models (LALMs) where decisive audio evidence can be under-utilized even when it contains important information. To address this issue we use mechanistic interpretability to identify a small set of audio-specialist attention heads whose audio attention yields a ``listening'' signal. We show that this signal increases when audio evidence affects the model's output, providing an indicator of audio engagement under standard prompting. Leveraging this localization, we construct an audio--silence steering direction and apply an inference-time activation intervention to the final representation, amplifying the model's audio effect. To demonstrate the utility of this intervention, we show on MMAU that this improves accuracy by up to +8.0 percentage points on two Qwen-based LALMs, without any parameter updates.