Minderung von Aufmerksamkeits-Sinks und massiven Aktivierungen in der audiovisuellen Spracherkennung mit großen Sprachmodellen
Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS
October 26, 2025
papers.authors: Anand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben in letzter Zeit die auditive Spracherkennung (ASR), die visuelle Spracherkennung (VSR) und die audiovisuelle Spracherkennung (AVSR) vorangetrieben. Das Verständnis ihrer internen Dynamik unter Feinabstimmung bleibt jedoch begrenzt. In der natürlichen Sprachverarbeitung haben neuere Arbeiten Aufmerksamkeitssenken (Attention Sinks) aufgezeigt – Token, die unverhältnismäßig hohe Aufmerksamkeit auf sich ziehen – und damit verbundene massive Aktivierungen, bei denen einige Merkmale der Senken-Token enorme Aktivierungen in LLMs zeigen. In dieser Arbeit untersuchen wir als Erste diese Phänomene in der multimodalen Spracherkennung. Durch eine detaillierte Analyse audiovisueller LLMs identifizieren wir Aufmerksamkeitssenken und massive Aktivierungen nicht nur beim BOS-Token, sondern auch bei Token mit niedrigem Semantikgehalt in ASR, VSR und AVSR. Wir zeigen, dass die massiven Aktivierungen in den MLP-Schichten (Multilayer Perceptron) entstehen und festen Merkmalsindizes über alle Senken-Token hinweg entsprechen. Des Weiteren zeigen wir, dass intermediäre Senken-Token eine hohe Kosinus-Ähnlichkeit zum BOS-Token aufweisen und dadurch Aufmerksamkeit und Aktivierung verstärken. Aufbauend auf diesen Erkenntnissen führen wir einen einfachen Dekorrelationsverlust (Decorrelation Loss) ein, der die Kosinus-Ähnlichkeit zwischen dem BOS- und anderen Token reduziert und so effektiv intermediäre Senken und massive Aktivierungen abschwächt. Darüber hinaus verbessert unsere Methode die Wortfehlerrate (WER) bei starker Audiovisual-Downsampling, während sie bei geringeren Downsampling-Raten stabil bleibt.
English
Large language models (LLMs) have recently advanced auditory speech
recognition (ASR), visual speech recognition (VSR), and audio-visual speech
recognition (AVSR). However, understanding of their internal dynamics under
fine-tuning remains limited. In natural language processing, recent work has
revealed attention sinks, tokens that attract disproportionately high
attention, and associated massive activations in which some features of sink
tokens exhibit huge activation in LLMs. In this work, we are the first to study
these phenomena in multimodal speech recognition. Through a detailed analysis
of audio-visual LLMs, we identify attention sinks and massive activations not
only at the BOS token but also at intermediate low-semantic tokens across ASR,
VSR, and AVSR. We show that massive activations originate in the MLP layers and
correspond to fixed feature indices across all sink tokens. We further show
that intermediate sink tokens exhibit high cosine similarity to the BOS token,
thereby amplifying attention and activation. Building on these insights, we
introduce a simple decorrelation loss that reduces cosine similarity between
BOS and other tokens, effectively mitigating intermediate sinks and massive
activations. Furthermore, our method improves word error rate (WER) under high
audio-visual feature downsampling while remaining stable at lower downsampling
rates.