ChatPaper.aiChatPaper

Слышат ли аудио-языковые модели? Специализированные аудио-механизмы для адаптивного управления аудиопотоком

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

March 6, 2026
Авторы: Neta Glazer, Lenny Aharon, Ethan Fetaya
cs.AI

Аннотация

Мультимодальные большие языковые модели могут проявлять доминирование текста, чрезмерно полагаясь на лингвистические априорные данные вместо того, чтобы основывать предсказания на нетекстовых входах. Одним из примеров являются большие аудио-языковые модели (LALMs), где решающие аудиодоказательства могут недостаточно использоваться, даже если они содержат важную информацию. Для решения этой проблемы мы применяем механистическую интерпретируемость, чтобы идентифицировать небольшой набор аудио-специализированных голов внимания, чье аудиовнимание генерирует «слуховой» сигнал. Мы показываем, что этот сигнал усиливается, когда аудиодоказательства влияют на вывод модели, что служит индикатором вовлеченности аудио при стандартном промптинге. Используя эту локализацию, мы конструируем направление управления «аудио-тишина» и применяем интервенцию активации во время вывода к конечному представлению, усиливая аудиоэффект модели. Чтобы продемонстрировать полезность этой интервенции, мы показываем на MMAU, что она повышает точность до +8,0 процентных пунктов на двух LALMs на основе Qwen без каких-либо обновлений параметров.
English
Multimodal large language models can exhibit text dominance, over-relying on linguistic priors instead of grounding predictions in non-text inputs. One example is large audio-language models (LALMs) where decisive audio evidence can be under-utilized even when it contains important information. To address this issue we use mechanistic interpretability to identify a small set of audio-specialist attention heads whose audio attention yields a ``listening'' signal. We show that this signal increases when audio evidence affects the model's output, providing an indicator of audio engagement under standard prompting. Leveraging this localization, we construct an audio--silence steering direction and apply an inference-time activation intervention to the final representation, amplifying the model's audio effect. To demonstrate the utility of this intervention, we show on MMAU that this improves accuracy by up to +8.0 percentage points on two Qwen-based LALMs, without any parameter updates.
PDF91March 12, 2026