ChatPaper.aiChatPaper

Mitigación de Sumideros de Atención y Activaciones Masivas en el Reconocimiento de Voz Audio-Visual con Modelos de Lenguaje Grandes

Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS

October 26, 2025
Autores: Anand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI

Resumen

Los grandes modelos de lenguaje (LLM) han avanzado recientemente en el reconocimiento auditivo del habla (ASR), el reconocimiento visual del habla (VSR) y el reconocimiento audiovisual del habla (AVSR). Sin embargo, la comprensión de su dinámica interna durante el ajuste fino sigue siendo limitada. En el procesamiento del lenguaje natural, trabajos recientes han revelado los sumideros de atención (attention sinks), tokens que atraen una atención desproporcionadamente alta, y las activaciones masivas asociadas, donde algunas características de los tokens sumidero exhiben una activación enorme en los LLM. En este trabajo, somos los primeros en estudiar estos fenómenos en el reconocimiento multimodal del habla. Mediante un análisis detallado de LLM audiovisuales, identificamos sumideros de atención y activaciones masivas no solo en el token BOS (inicio de secuencia), sino también en tokens intermedios de bajo contenido semántico en ASR, VSR y AVSR. Demostramos que las activaciones masivas se originan en las capas MLP y corresponden a índices de características fijos en todos los tokens sumidero. Además, mostramos que los tokens sumidero intermedios presentan una alta similitud de coseno con el token BOS, amplificando así la atención y la activación. Basándonos en estas observaciones, introducimos una simple pérdida por decorrelación que reduce la similitud de coseno entre el token BOS y otros tokens, mitigando eficazmente los sumideros intermedios y las activaciones masivas. Además, nuestro método mejora la tasa de error por palabra (WER) bajo un alto submuestreo de características audiovisuales, manteniéndose estable en tasas de submuestreo más bajas.
English
Large language models (LLMs) have recently advanced auditory speech recognition (ASR), visual speech recognition (VSR), and audio-visual speech recognition (AVSR). However, understanding of their internal dynamics under fine-tuning remains limited. In natural language processing, recent work has revealed attention sinks, tokens that attract disproportionately high attention, and associated massive activations in which some features of sink tokens exhibit huge activation in LLMs. In this work, we are the first to study these phenomena in multimodal speech recognition. Through a detailed analysis of audio-visual LLMs, we identify attention sinks and massive activations not only at the BOS token but also at intermediate low-semantic tokens across ASR, VSR, and AVSR. We show that massive activations originate in the MLP layers and correspond to fixed feature indices across all sink tokens. We further show that intermediate sink tokens exhibit high cosine similarity to the BOS token, thereby amplifying attention and activation. Building on these insights, we introduce a simple decorrelation loss that reduces cosine similarity between BOS and other tokens, effectively mitigating intermediate sinks and massive activations. Furthermore, our method improves word error rate (WER) under high audio-visual feature downsampling while remaining stable at lower downsampling rates.
PDF21December 31, 2025