Смягчение эффектов "стоков внимания" и массовых активаций в аудиовизуальном распознавании речи с использованием больших языковых моделей
Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS
October 26, 2025
Авторы: Anand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI
Аннотация
Крупные языковые модели (LLM) недавно продемонстрировали прогресс в области автоматического распознавания речи (ASR), визуального распознавания речи (VSR) и аудиовизуального распознавания речи (AVSR). Однако понимание их внутренней динамики в процессе тонкой настройки остается ограниченным. В обработке естественного языка недавние исследования выявили феномен «стоков внимания» — токенов, которые привлекают непропорционально высокое внимание, и связанные с ними массивные активации, при которых некоторые признаки токенов-стоков проявляют чрезвычайно высокую активацию в LLM. В данной работе мы впервые исследуем эти явления в многомодальном распознавании речи. Посредством детального анализа аудиовизуальных LLM мы идентифицируем стоки внимания и массивные активации не только у токена BOS, но и у промежуточных токенов с низкой семантической нагрузкой в задачах ASR, VSR и AVSR. Мы показываем, что массивные активации возникают в MLP-слоях и соответствуют фиксированным индексам признаков для всех токен-стоков. Мы также демонстрируем, что промежуточные токены-стоки обладают высоким косинусным сходством с токеном BOS, тем самым усиливая внимание и активацию. На основе этих наблюдений мы предлагаем простую функцию потерь на декорреляцию, которая снижает косинусное сходство между BOS и другими токенами, эффективно подавляя промежуточные стоки и массивные активации. Кроме того, наш метод улучшает показатель Word Error Rate (WER) при сильном прореживании аудиовизуальных признаков, сохраняя стабильность на более низких уровнях прореживания.
English
Large language models (LLMs) have recently advanced auditory speech
recognition (ASR), visual speech recognition (VSR), and audio-visual speech
recognition (AVSR). However, understanding of their internal dynamics under
fine-tuning remains limited. In natural language processing, recent work has
revealed attention sinks, tokens that attract disproportionately high
attention, and associated massive activations in which some features of sink
tokens exhibit huge activation in LLMs. In this work, we are the first to study
these phenomena in multimodal speech recognition. Through a detailed analysis
of audio-visual LLMs, we identify attention sinks and massive activations not
only at the BOS token but also at intermediate low-semantic tokens across ASR,
VSR, and AVSR. We show that massive activations originate in the MLP layers and
correspond to fixed feature indices across all sink tokens. We further show
that intermediate sink tokens exhibit high cosine similarity to the BOS token,
thereby amplifying attention and activation. Building on these insights, we
introduce a simple decorrelation loss that reduces cosine similarity between
BOS and other tokens, effectively mitigating intermediate sinks and massive
activations. Furthermore, our method improves word error rate (WER) under high
audio-visual feature downsampling while remaining stable at lower downsampling
rates.