Gli Audio-Language Model Stanno Ascoltando? Teste Specializzate in Audio per un Pilotaggio Adattivo

Abstract

I modelli linguistici multimodali di grandi dimensioni possono manifestare una dominanza testuale, affidandosi eccessivamente a conoscenze pregresse linguistiche invece di ancorare le previsioni agli input non testuali. Un esempio sono i grandi modelli audio-linguistici (LALM), in cui le prove audio decisive possono essere sottoutilizzate anche quando contengono informazioni importanti. Per affrontare questo problema, utilizziamo l'interpretabilità meccanicistica per identificare un piccolo insieme di testine di attenzione specializzate nell'audio, la cui attenzione audio produce un segnale di "ascolto". Dimostriamo che questo segnale aumenta quando le prove audio influenzano l'output del modello, fornendo un indicatore dell'engagement audio sotto prompt standard. Sfruttando questa localizzazione, costruiamo una direzione di steering audio-silenzio e applichiamo un intervento sulle attivazioni al momento dell'inferenza alla rappresentazione finale, amplificando l'effetto audio del modello. Per dimostrare l'utilità di questo intervento, mostriamo su MMAU che ciò migliora l'accuratezza fino a +8,0 punti percentuali su due LALM basati su Qwen, senza alcun aggiornamento dei parametri.

English

Multimodal large language models can exhibit text dominance, over-relying on linguistic priors instead of grounding predictions in non-text inputs. One example is large audio-language models (LALMs) where decisive audio evidence can be under-utilized even when it contains important information. To address this issue we use mechanistic interpretability to identify a small set of audio-specialist attention heads whose audio attention yields a ``listening'' signal. We show that this signal increases when audio evidence affects the model's output, providing an indicator of audio engagement under standard prompting. Leveraging this localization, we construct an audio--silence steering direction and apply an inference-time activation intervention to the final representation, amplifying the model's audio effect. To demonstrate the utility of this intervention, we show on MMAU that this improves accuracy by up to +8.0 percentage points on two Qwen-based LALMs, without any parameter updates.

Gli Audio-Language Model Stanno Ascoltando? Teste Specializzate in Audio per un Pilotaggio Adattivo

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Abstract

Support