Atténuation des puits d'attention et des activations massives dans la reconnaissance audiovisuelle de la parole avec des LLM
Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS
October 26, 2025
papers.authors: Anand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont récemment fait progresser la reconnaissance automatique de la parole (ASR), la reconnaissance visuelle de la parole (VSR) et la reconnaissance audio-visuelle de la parole (AVSR). Cependant, la compréhension de leur dynamique interne lors du réglage fin reste limitée. En traitement du langage naturel, des travaux récents ont mis en évidence des puits d'attention (attention sinks), des tokens qui attirent une attention disproportionnellement élevée, et des activations massives associées où certaines caractéristiques des tokens puits présentent une activation massive dans les LLM. Dans ce travail, nous sommes les premiers à étudier ces phénomènes dans la reconnaissance de la parole multimodale. Par une analyse détaillée de LLM audio-visuels, nous identifions des puits d'attention et des activations massives non seulement au niveau du token BOS (début de séquence), mais aussi au niveau de tokens intermédiaires à faible sémantique dans les tâches ASR, VSR et AVSR. Nous montrons que les activations massives prennent naissance dans les couches MLP (Perceptron Multicouche) et correspondent à des indices de caractéristiques fixes pour tous les tokens puits. Nous démontrons en outre que les tokens puits intermédiaires présentent une similarité cosinus élevée avec le token BOS, amplifiant ainsi l'attention et l'activation. En nous appuyant sur ces observations, nous introduisons une simple fonction de perte de décorrélation qui réduit la similarité cosinus entre le token BOS et les autres tokens, atténuant efficacement les puits intermédiaires et les activations massives. De plus, notre méthode améliore le taux d'erreur sur les mots (WER) dans des conditions de sous-échantillonnage important des caractéristiques audio-visuelles, tout en restant stable à des taux de sous-échantillonnage plus faibles.
English
Large language models (LLMs) have recently advanced auditory speech
recognition (ASR), visual speech recognition (VSR), and audio-visual speech
recognition (AVSR). However, understanding of their internal dynamics under
fine-tuning remains limited. In natural language processing, recent work has
revealed attention sinks, tokens that attract disproportionately high
attention, and associated massive activations in which some features of sink
tokens exhibit huge activation in LLMs. In this work, we are the first to study
these phenomena in multimodal speech recognition. Through a detailed analysis
of audio-visual LLMs, we identify attention sinks and massive activations not
only at the BOS token but also at intermediate low-semantic tokens across ASR,
VSR, and AVSR. We show that massive activations originate in the MLP layers and
correspond to fixed feature indices across all sink tokens. We further show
that intermediate sink tokens exhibit high cosine similarity to the BOS token,
thereby amplifying attention and activation. Building on these insights, we
introduce a simple decorrelation loss that reduces cosine similarity between
BOS and other tokens, effectively mitigating intermediate sinks and massive
activations. Furthermore, our method improves word error rate (WER) under high
audio-visual feature downsampling while remaining stable at lower downsampling
rates.