A Atenção Cruzada é Metade da Explicação em Modelos de Fala para Texto.
Cross-Attention is Half Explanation in Speech-to-Text Models
September 22, 2025
Autores: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
cs.AI
Resumo
A atenção cruzada é um mecanismo central em arquiteturas codificador-decodificador, amplamente utilizado em diversos campos, incluindo o processamento de fala para texto (S2T). Suas pontuações têm sido reaproveitadas para várias aplicações subsequentes—como estimativa de timestamps e alinhamento áudio-texto—sob a suposição de que refletem as dependências entre a representação da fala de entrada e o texto gerado. Embora a natureza explicativa dos mecanismos de atenção tenha sido amplamente debatida na literatura mais ampla de PLN, essa suposição permanece em grande parte inexplorada no domínio da fala. Para abordar essa lacuna, avaliamos o poder explicativo da atenção cruzada em modelos S2T comparando suas pontuações com mapas de saliência de entrada derivados de atribuição de características. Nossa análise abrange modelos monolíngues e multilíngues, de tarefa única e multitarefa, em múltiplas escalas, e mostra que as pontuações de atenção se alinham moderadamente a fortemente com explicações baseadas em saliência, especialmente quando agregadas entre cabeças e camadas. No entanto, também mostra que a atenção cruzada captura apenas cerca de 50% da relevância da entrada e, no melhor caso, reflete apenas parcialmente como o decodificador atende às representações do codificador—representando apenas 52-75% da saliência. Essas descobertas revelam limitações fundamentais na interpretação da atenção cruzada como um proxy explicativo, sugerindo que ela oferece uma visão informativa, mas incompleta, dos fatores que impulsionam as previsões em modelos S2T.
English
Cross-attention is a core mechanism in encoder-decoder architectures,
widespread in many fields, including speech-to-text (S2T) processing. Its
scores have been repurposed for various downstream applications--such as
timestamp estimation and audio-text alignment--under the assumption that they
reflect the dependencies between input speech representation and the generated
text. While the explanatory nature of attention mechanisms has been widely
debated in the broader NLP literature, this assumption remains largely
unexplored within the speech domain. To address this gap, we assess the
explanatory power of cross-attention in S2T models by comparing its scores to
input saliency maps derived from feature attribution. Our analysis spans
monolingual and multilingual, single-task and multi-task models at multiple
scales, and shows that attention scores moderately to strongly align with
saliency-based explanations, particularly when aggregated across heads and
layers. However, it also shows that cross-attention captures only about 50% of
the input relevance and, in the best case, only partially reflects how the
decoder attends to the encoder's representations--accounting for just 52-75% of
the saliency. These findings uncover fundamental limitations in interpreting
cross-attention as an explanatory proxy, suggesting that it offers an
informative yet incomplete view of the factors driving predictions in S2T
models.