Mitigação de Sumidouros de Atenção e Ativações Maciças no Reconhecimento de Fala Áudio-Visual com LLMs
Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS
October 26, 2025
Autores: Anand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) têm avançado recentemente o reconhecimento de fala auditivo (ASR), o reconhecimento de fala visual (VSR) e o reconhecimento de fala audiovisual (AVSR). No entanto, a compreensão da sua dinâmica interna durante o *fine-tuning* permanece limitada. No processamento de linguagem natural, trabalhos recentes revelaram *attention sinks* (sumidouros de atenção), tokens que atraem atenção desproporcionalmente alta, e as ativações massivas associadas, nas quais algumas características dos tokens *sink* exibem ativação enorme nos LLMs. Neste trabalho, somos os primeiros a estudar estes fenômenos no reconhecimento de fala multimodal. Através de uma análise detalhada de LLMs audiovisuais, identificamos *attention sinks* e ativações massivas não apenas no token BOS, mas também em tokens intermediários de baixa semântica em ASR, VSR e AVSR. Mostramos que as ativações massivas se originam nas camadas MLP e correspondem a índices de características fixos em todos os tokens *sink*. Mostramos ainda que os tokens *sink* intermediários exibem alta similaridade de cosseno com o token BOS, amplificando assim a atenção e a ativação. Com base nessas percepções, introduzimos uma simples função de perda de descorrelação que reduz a similaridade de cosseno entre o BOS e outros tokens, mitigando efetivamente os *sinks* intermediários e as ativações massivas. Além disso, o nosso método melhora a taxa de erro de palavras (WER) sob alta subamostragem de características audiovisuais, mantendo-se estável em taxas de subamostragem mais baixas.
English
Large language models (LLMs) have recently advanced auditory speech
recognition (ASR), visual speech recognition (VSR), and audio-visual speech
recognition (AVSR). However, understanding of their internal dynamics under
fine-tuning remains limited. In natural language processing, recent work has
revealed attention sinks, tokens that attract disproportionately high
attention, and associated massive activations in which some features of sink
tokens exhibit huge activation in LLMs. In this work, we are the first to study
these phenomena in multimodal speech recognition. Through a detailed analysis
of audio-visual LLMs, we identify attention sinks and massive activations not
only at the BOS token but also at intermediate low-semantic tokens across ASR,
VSR, and AVSR. We show that massive activations originate in the MLP layers and
correspond to fixed feature indices across all sink tokens. We further show
that intermediate sink tokens exhibit high cosine similarity to the BOS token,
thereby amplifying attention and activation. Building on these insights, we
introduce a simple decorrelation loss that reduces cosine similarity between
BOS and other tokens, effectively mitigating intermediate sinks and massive
activations. Furthermore, our method improves word error rate (WER) under high
audio-visual feature downsampling while remaining stable at lower downsampling
rates.