ChatPaper.aiChatPaper

Luisteren Audio-Taalmodellen? Audio-Specialist Heads voor Adaptieve Audiosturing

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

March 6, 2026
Auteurs: Neta Glazer, Lenny Aharon, Ethan Fetaya
cs.AI

Samenvatting

Multimodale grote taalmodellen kunnen tekstdominantie vertonen, waarbij ze te veel leunen op linguïstische voorkennis in plaats van voorspellingen te grondvesten op niet-tekstuele invoer. Een voorbeeld zijn grote audio-taalmodellen (LALMs), waar doorslaggevend audiobewijs onderbenut kan blijven, zelfs wanneer het cruciale informatie bevat. Om dit probleem aan te pakken, gebruiken we mechanistische interpreteerbaarheid om een kleine set audio-specialistische aandachtshoofden te identificeren, wier audio-aandacht een "luister"-signaal oplevert. We tonen aan dat dit signaal toeneemt wanneer audiobewijs de output van het model beïnvloedt, wat een indicator vormt van audio-engagement onder standaard prompting. Gebruikmakend van deze lokalisatie construeren we een audio–stilte-stuurrichting en passen we een interventie op de activatie tijdens inferentie toe op de uiteindelijke representatie, waardoor het audio-effect van het model wordt versterkt. Om de bruikbaarheid van deze interventie aan te tonen, laten we op MMAU zien dat dit de nauwkeurigheid met tot +8,0 procentpunt verbetert bij twee op Qwen gebaseerde LALMs, zonder enige parameterupdates.
English
Multimodal large language models can exhibit text dominance, over-relying on linguistic priors instead of grounding predictions in non-text inputs. One example is large audio-language models (LALMs) where decisive audio evidence can be under-utilized even when it contains important information. To address this issue we use mechanistic interpretability to identify a small set of audio-specialist attention heads whose audio attention yields a ``listening'' signal. We show that this signal increases when audio evidence affects the model's output, providing an indicator of audio engagement under standard prompting. Leveraging this localization, we construct an audio--silence steering direction and apply an inference-time activation intervention to the final representation, amplifying the model's audio effect. To demonstrate the utility of this intervention, we show on MMAU that this improves accuracy by up to +8.0 percentage points on two Qwen-based LALMs, without any parameter updates.
PDF122March 26, 2026