¿Están Escuchando los Modelos de Audio-Lenguaje? Cabezales Especialistas en Audio para la Dirección Adaptativa de Audio

Resumen

Los modelos lingüísticos grandes multimodales pueden exhibir dominancia textual, confiando excesivamente en conocimientos previos lingüísticos en lugar de fundamentar las predicciones en entradas no textuales. Un ejemplo son los grandes modelos audio-lingüísticos (LALMs), donde la evidencia auditiva decisiva puede ser subutilizada incluso cuando contiene información importante. Para abordar este problema, utilizamos la interpretabilidad mecanicista para identificar un pequeño conjunto de cabezas de atención audio-especialistas cuya atención auditiva produce una señal de "escucha". Demostramos que esta señal aumenta cuando la evidencia auditiva afecta la salida del modelo, proporcionando un indicador de compromiso auditivo bajo indicaciones estándar. Aprovechando esta localización, construimos una dirección de orientación audio-silencio y aplicamos una intervención de activación en tiempo de inferencia a la representación final, amplificando el efecto auditivo del modelo. Para demostrar la utilidad de esta intervención, mostramos en MMAU que esto mejora la precisión hasta en +8.0 puntos porcentuales en dos LALMs basados en Qwen, sin ninguna actualización de parámetros.

English

Multimodal large language models can exhibit text dominance, over-relying on linguistic priors instead of grounding predictions in non-text inputs. One example is large audio-language models (LALMs) where decisive audio evidence can be under-utilized even when it contains important information. To address this issue we use mechanistic interpretability to identify a small set of audio-specialist attention heads whose audio attention yields a ``listening'' signal. We show that this signal increases when audio evidence affects the model's output, providing an indicator of audio engagement under standard prompting. Leveraging this localization, we construct an audio--silence steering direction and apply an inference-time activation intervention to the final representation, amplifying the model's audio effect. To demonstrate the utility of this intervention, we show on MMAU that this improves accuracy by up to +8.0 percentage points on two Qwen-based LALMs, without any parameter updates.

¿Están Escuchando los Modelos de Audio-Lenguaje? Cabezales Especialistas en Audio para la Dirección Adaptativa de Audio

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Resumen

Support