ChatPaper.aiChatPaper

LLMSを用いた聴覚視覚音声認識における注意シンクと大規模活性化の軽減

Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS

October 26, 2025
著者: Anand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI

要旨

大規模言語モデル(LLM)は近年、聴覚音声認識(ASR)、視覚音声認識(VSR)、聴覚・視覚融合音声認識(AVSR)において進展をもたらしている。しかし、ファインチューニング下での内部動態に関する理解は依然として限られている。自然言語処理分野では、最近の研究により、不均衡に高い注意を集めるトークンである「注意シンク」と、シンクトークンの一部特徴がLLM内で巨大な活性化を示す「大規模活性化」現象が明らかにされている。本研究では、マルチモーダル音声認識におけるこれらの現象を初めて検討する。聴覚・視覚LLMの詳細分析を通じて、ASR、VSR、AVSRの全てにおいて、BOSトークンだけでなく中間的な低意味トークンにも注意シンクと大規模活性化が存在することを同定する。大規模活性化がMLP層に起源を持ち、全てのシンクトークンに共通する固定された特徴インデックスに対応することを示す。さらに中間シンクトークンがBOSトークンとの高いコサイン類似性を示し、注意と活性化を増幅することを明らかにする。これらの知見に基づき、BOSと他のトークン間のコサイン類似性を低減する簡易なデコリレーション損失を提案し、中間シンクと大規模活性化を効果的に抑制する。さらに本手法は、高次元の聴覚・視覚特徴ダウンサンプリング条件下で語誤り率(WER)を改善し、低ダウンサンプリング率では安定性を維持する。
English
Large language models (LLMs) have recently advanced auditory speech recognition (ASR), visual speech recognition (VSR), and audio-visual speech recognition (AVSR). However, understanding of their internal dynamics under fine-tuning remains limited. In natural language processing, recent work has revealed attention sinks, tokens that attract disproportionately high attention, and associated massive activations in which some features of sink tokens exhibit huge activation in LLMs. In this work, we are the first to study these phenomena in multimodal speech recognition. Through a detailed analysis of audio-visual LLMs, we identify attention sinks and massive activations not only at the BOS token but also at intermediate low-semantic tokens across ASR, VSR, and AVSR. We show that massive activations originate in the MLP layers and correspond to fixed feature indices across all sink tokens. We further show that intermediate sink tokens exhibit high cosine similarity to the BOS token, thereby amplifying attention and activation. Building on these insights, we introduce a simple decorrelation loss that reduces cosine similarity between BOS and other tokens, effectively mitigating intermediate sinks and massive activations. Furthermore, our method improves word error rate (WER) under high audio-visual feature downsampling while remaining stable at lower downsampling rates.
PDF21December 31, 2025