ChatPaper.aiChatPaper

LLM을 활용한 오디오-비주얼 음성 인식에서 주의력 소모와 대규모 활성화 완화

Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS

October 26, 2025
저자: Anand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI

초록

대규모 언어 모델(LLM)은 최근 음성 인식(ASR), 시각 음성 인식(VSR), 그리고 오디오-시각 음성 인식(AVSR) 분야에서 진전을 이루었습니다. 그러나 미세 조정 시 이들의 내부 동역학에 대한 이해는 여전히 제한적입니다. 자연어 처리 분야에서는 최근 연구를 통해 주의 싱크(attention sink, 지나치게 높은 주의를 끄는 토큰)와 이와 연관된 대규모 활성화 현상(싱크 토큰의 일부 특징이 LLM에서 매우 큰 활성값을 보이는 현상)이 밝혀졌습니다. 본 연구에서는 다중 모드 음성 인식에서 이러한 현상을 최초로 연구합니다. 오디오-시각 LLM에 대한 상세 분석을 통해 ASR, VSR, AVSR 전반에 걸쳐 BOS(Begin-Of-Sequence) 토큰뿐만 아니라 중간 저-의미적(low-semantic) 토큰에서도 주의 싱크와 대규모 활성화 현상을 확인했습니다. 우리는 대규모 활성화가 MLP 계층에서 기인하며, 모든 싱크 토큰에 걸쳐 고정된 특징 인덱스에 해당함을 보입니다. 더 나아가 중간 싱크 토큰들은 BOS 토큰과 높은 코사인 유사도를 보여, 주의와 활성화를 증폭시킴을 확인했습니다. 이러한 통찰을 바탕으로, BOS 토큰과 다른 토큰들 간의 코사인 유사도를 감소시켜 중간 싱크와 대규모 활성화를 효과적으로 완화하는 간단한 디코릴레이션 손실(decorrelation loss)을 제안합니다. 게다가, 우리의 방법은 높은 오디오-시각 특징 다운샘플링 조건에서 단어 오류율(WER)을 개선하면서도 낮은 다운샘플링 비율에서는 안정적인 성능을 유지합니다.
English
Large language models (LLMs) have recently advanced auditory speech recognition (ASR), visual speech recognition (VSR), and audio-visual speech recognition (AVSR). However, understanding of their internal dynamics under fine-tuning remains limited. In natural language processing, recent work has revealed attention sinks, tokens that attract disproportionately high attention, and associated massive activations in which some features of sink tokens exhibit huge activation in LLMs. In this work, we are the first to study these phenomena in multimodal speech recognition. Through a detailed analysis of audio-visual LLMs, we identify attention sinks and massive activations not only at the BOS token but also at intermediate low-semantic tokens across ASR, VSR, and AVSR. We show that massive activations originate in the MLP layers and correspond to fixed feature indices across all sink tokens. We further show that intermediate sink tokens exhibit high cosine similarity to the BOS token, thereby amplifying attention and activation. Building on these insights, we introduce a simple decorrelation loss that reduces cosine similarity between BOS and other tokens, effectively mitigating intermediate sinks and massive activations. Furthermore, our method improves word error rate (WER) under high audio-visual feature downsampling while remaining stable at lower downsampling rates.
PDF21December 31, 2025