Mitigazione dei Sink di Attenzione e delle Attivazioni Massive nel Riconoscimento Audio-Visivo del Parlato con LLM
Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS
October 26, 2025
Autori: Anand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno recentemente fatto progredire il riconoscimento vocale uditivo (ASR), il riconoscimento vocale visivo (VSR) e il riconoscimento vocale audiovisivo (AVSR). Tuttavia, la comprensione delle loro dinamiche interne durante il fine-tuning rimane limitata. Nell'elaborazione del linguaggio naturale, recenti lavori hanno rivelato l'esistenza di "attention sink", token che attirano un'attenzione sproporzionatamente alta, e delle relative attivazioni massive, in cui alcune caratteristiche dei token sink mostrano attivazioni enormi negli LLM. In questo lavoro, siamo i primi a studiare questi fenomeni nel riconoscimento vocale multimodale. Attraverso un'analisi dettagliata di LLM audiovisivi, identifichiamo attention sink e attivazioni massive non solo al token BOS, ma anche in token intermedi a basso contenuto semantico in ASR, VSR e AVSR. Dimostriamo che le attivazioni massive originano nei livelli MLP e corrispondono a indici di caratteristiche fissi per tutti i token sink. Mostriamo inoltre che i token sink intermedi presentano un'elevata similarità del coseno con il token BOS, amplificando così l'attenzione e l'attivazione. Basandoci su queste intuizioni, introduciamo una semplice funzione di perdita di decorrelazione che riduce la similarità del coseno tra il token BOS e gli altri token, mitigando efficacemente i sink intermedi e le attivazioni massive. Inoltre, il nostro metodo migliora il tasso di errore sulle parole (WER) in condizioni di elevato downsampling delle caratteristiche audiovisive, mantenendo al contempo stabilità a tassi di downsampling più bassi.
English
Large language models (LLMs) have recently advanced auditory speech
recognition (ASR), visual speech recognition (VSR), and audio-visual speech
recognition (AVSR). However, understanding of their internal dynamics under
fine-tuning remains limited. In natural language processing, recent work has
revealed attention sinks, tokens that attract disproportionately high
attention, and associated massive activations in which some features of sink
tokens exhibit huge activation in LLMs. In this work, we are the first to study
these phenomena in multimodal speech recognition. Through a detailed analysis
of audio-visual LLMs, we identify attention sinks and massive activations not
only at the BOS token but also at intermediate low-semantic tokens across ASR,
VSR, and AVSR. We show that massive activations originate in the MLP layers and
correspond to fixed feature indices across all sink tokens. We further show
that intermediate sink tokens exhibit high cosine similarity to the BOS token,
thereby amplifying attention and activation. Building on these insights, we
introduce a simple decorrelation loss that reduces cosine similarity between
BOS and other tokens, effectively mitigating intermediate sinks and massive
activations. Furthermore, our method improves word error rate (WER) under high
audio-visual feature downsampling while remaining stable at lower downsampling
rates.