Cross-Attention is Half Verklaring in Spraak-naar-Tekst Modellen
Cross-Attention is Half Explanation in Speech-to-Text Models
September 22, 2025
Auteurs: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
cs.AI
Samenvatting
Cross-attention is een kernmechanisme in encoder-decoder-architecturen, dat wijdverspreid is in vele domeinen, waaronder spraak-naar-tekst (S2T)-verwerking. De scores ervan zijn hergebruikt voor verschillende downstream-toepassingen—zoals timestamp-schatting en audio-tekst-alignering—onder de aanname dat ze de afhankelijkheden tussen de invoer-spraakrepresentatie en de gegenereerde tekst weerspiegelen. Hoewel de verklarende aard van aandachtmechanismen breed is bediscussieerd in de bredere NLP-literatuur, blijft deze aanname grotendeels ononderzocht binnen het spraakdomein. Om deze leemte aan te pakken, evalueren we de verklarende kracht van cross-attention in S2T-modellen door de scores ervan te vergelijken met invoer-saliencykaarten afgeleid van kenmerktoewijzing. Onze analyse omvat eentalige en meertalige, enkelvoudige en meervoudige taakmodellen op verschillende schalen, en toont aan dat attentiescores matig tot sterk overeenkomen met saliency-gebaseerde verklaringen, vooral wanneer ze worden geaggregeerd over heads en lagen. Het laat echter ook zien dat cross-attention slechts ongeveer 50% van de invoerrelevantie vastlegt en, in het beste geval, slechts gedeeltelijk weerspiegelt hoe de decoder de representaties van de encoder verwerkt—wat slechts 52-75% van de saliency verklaart. Deze bevindingen onthullen fundamentele beperkingen in het interpreteren van cross-attention als een verklarende proxy, wat suggereert dat het een informatieve maar onvolledige kijk biedt op de factoren die voorspellingen in S2T-modellen sturen.
English
Cross-attention is a core mechanism in encoder-decoder architectures,
widespread in many fields, including speech-to-text (S2T) processing. Its
scores have been repurposed for various downstream applications--such as
timestamp estimation and audio-text alignment--under the assumption that they
reflect the dependencies between input speech representation and the generated
text. While the explanatory nature of attention mechanisms has been widely
debated in the broader NLP literature, this assumption remains largely
unexplored within the speech domain. To address this gap, we assess the
explanatory power of cross-attention in S2T models by comparing its scores to
input saliency maps derived from feature attribution. Our analysis spans
monolingual and multilingual, single-task and multi-task models at multiple
scales, and shows that attention scores moderately to strongly align with
saliency-based explanations, particularly when aggregated across heads and
layers. However, it also shows that cross-attention captures only about 50% of
the input relevance and, in the best case, only partially reflects how the
decoder attends to the encoder's representations--accounting for just 52-75% of
the saliency. These findings uncover fundamental limitations in interpreting
cross-attention as an explanatory proxy, suggesting that it offers an
informative yet incomplete view of the factors driving predictions in S2T
models.