Os Modelos de Áudio-Linguagem Estão a Ouvir? Cabeças Especializadas em Áudio para uma Direção de Áudio Adaptativa
Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering
March 6, 2026
Autores: Neta Glazer, Lenny Aharon, Ethan Fetaya
cs.AI
Resumo
Os modelos de linguagem grandes multimodais podem exibir dominância textual, confiando excessivamente em conhecimentos prévios linguísticos em vez de fundamentar suas previsões em entradas não textuais. Um exemplo são os grandes modelos de áudio e linguagem (LALMs), nos quais evidências sonoras decisivas podem ser subutilizadas, mesmo quando contêm informações importantes. Para resolver esse problema, utilizamos interpretabilidade mecanicista para identificar um pequeno conjunto de cabeças de atenção especializadas em áudio, cuja atenção ao áudio produz um sinal de "escuta". Demonstramos que esse sinal aumenta quando a evidência de áudio afeta a saída do modelo, fornecendo um indicador de engajamento auditivo sob prompts padrão. Aproveitando essa localização, construímos uma direção de direcionamento de áudio-silêncio e aplicamos uma intervenção de ativação no tempo de inferência à representação final, amplificando o efeito do áudio no modelo. Para demonstrar a utilidade dessa intervenção, mostramos no MMAU que ela melhora a precisão em até +8,0 pontos percentuais em dois LALMs baseados no Qwen, sem qualquer atualização de parâmetros.
English
Multimodal large language models can exhibit text dominance, over-relying on linguistic priors instead of grounding predictions in non-text inputs. One example is large audio-language models (LALMs) where decisive audio evidence can be under-utilized even when it contains important information. To address this issue we use mechanistic interpretability to identify a small set of audio-specialist attention heads whose audio attention yields a ``listening'' signal. We show that this signal increases when audio evidence affects the model's output, providing an indicator of audio engagement under standard prompting. Leveraging this localization, we construct an audio--silence steering direction and apply an inference-time activation intervention to the final representation, amplifying the model's audio effect. To demonstrate the utility of this intervention, we show on MMAU that this improves accuracy by up to +8.0 percentage points on two Qwen-based LALMs, without any parameter updates.