Het Verminderen van Aandachtspunten en Massieve Activaties in Audiovisuele Spraakherkenning met LLM's
Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS
October 26, 2025
Auteurs: Anand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben recentelijk vooruitgang geboekt in auditieve spraakherkenning (ASR), visuele spraakherkenning (VSR) en audiovisuele spraakherkenning (AVSR). Het begrip van hun interne dynamiek tijdens fine-tuning blijft echter beperkt. In natuurlijke taalverwerking heeft recent onderzoek aandacht-sinks aan het licht gebracht: tokens die onevenredig veel aandacht aantrekken, en daaraan gerelateerde massieve activaties waarbij sommige kenmerken van sink-tokens enorme activatie vertonen in LLM's. In dit werk bestuderen wij als eerste deze fenomenen in multimodale spraakherkenning. Via een gedetailleerde analyse van audiovisuele LLM's identificeren we aandacht-sinks en massieve activaties, niet alleen bij het BOS-token maar ook bij intermediaire tokens met lage semantiek in ASR, VSR en AVSR. We tonen aan dat massieve activaties ontstaan in de MLP-lagen en overeenkomen met vaste kenmerkindices voor alle sink-tokens. Verder tonen we aan dat intermediaire sink-tokens een hoge cosinusgelijkenis vertonen met het BOS-token, waardoor aandacht en activatie worden versterkt. Voortbouwend op deze inzichten introduceren we een eenvoudig decorrelatieverlies dat de cosinusgelijkenis tussen BOS en andere tokens vermindert, waardoor intermediaire sinks en massieve activaties effectief worden beperkt. Bovendien verbetert onze methode de woordfoutenfrequentie (WER) bij hoge audiovisuele feature-downsampling, terwijl deze stabiel blijft bij lagere downsampling-snelheden.
English
Large language models (LLMs) have recently advanced auditory speech
recognition (ASR), visual speech recognition (VSR), and audio-visual speech
recognition (AVSR). However, understanding of their internal dynamics under
fine-tuning remains limited. In natural language processing, recent work has
revealed attention sinks, tokens that attract disproportionately high
attention, and associated massive activations in which some features of sink
tokens exhibit huge activation in LLMs. In this work, we are the first to study
these phenomena in multimodal speech recognition. Through a detailed analysis
of audio-visual LLMs, we identify attention sinks and massive activations not
only at the BOS token but also at intermediate low-semantic tokens across ASR,
VSR, and AVSR. We show that massive activations originate in the MLP layers and
correspond to fixed feature indices across all sink tokens. We further show
that intermediate sink tokens exhibit high cosine similarity to the BOS token,
thereby amplifying attention and activation. Building on these insights, we
introduce a simple decorrelation loss that reduces cosine similarity between
BOS and other tokens, effectively mitigating intermediate sinks and massive
activations. Furthermore, our method improves word error rate (WER) under high
audio-visual feature downsampling while remaining stable at lower downsampling
rates.