L'attention croisée représente la moitié de l'explication dans les modèles de conversion parole-texte.
Cross-Attention is Half Explanation in Speech-to-Text Models
September 22, 2025
papers.authors: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
cs.AI
papers.abstract
L'attention croisée est un mécanisme central dans les architectures encodeur-décodeur, largement répandu dans de nombreux domaines, y compris le traitement de la parole vers le texte (S2T). Ses scores ont été réutilisés pour diverses applications en aval, telles que l'estimation des timestamps et l'alignement audio-texte, sous l'hypothèse qu'ils reflètent les dépendances entre la représentation de la parole en entrée et le texte généré. Bien que la nature explicative des mécanismes d'attention ait été largement débattue dans la littérature plus générale sur le traitement du langage naturel (NLP), cette hypothèse reste largement inexplorée dans le domaine de la parole. Pour combler cette lacune, nous évaluons le pouvoir explicatif de l'attention croisée dans les modèles S2T en comparant ses scores aux cartes de saillance d'entrée dérivées de l'attribution de caractéristiques. Notre analyse couvre des modèles monolingues et multilingues, à tâche unique et multitâches, à plusieurs échelles, et montre que les scores d'attention s'alignent modérément à fortement avec les explications basées sur la saillance, en particulier lorsqu'ils sont agrégés à travers les têtes et les couches. Cependant, elle montre également que l'attention croisée ne capture qu'environ 50 % de la pertinence de l'entrée et, dans le meilleur des cas, ne reflète que partiellement la manière dont le décodeur prête attention aux représentations de l'encodeur—ne représentant que 52 à 75 % de la saillance. Ces résultats révèlent des limitations fondamentales dans l'interprétation de l'attention croisée comme un proxy explicatif, suggérant qu'elle offre une vue informative mais incomplète des facteurs qui influencent les prédictions dans les modèles S2T.
English
Cross-attention is a core mechanism in encoder-decoder architectures,
widespread in many fields, including speech-to-text (S2T) processing. Its
scores have been repurposed for various downstream applications--such as
timestamp estimation and audio-text alignment--under the assumption that they
reflect the dependencies between input speech representation and the generated
text. While the explanatory nature of attention mechanisms has been widely
debated in the broader NLP literature, this assumption remains largely
unexplored within the speech domain. To address this gap, we assess the
explanatory power of cross-attention in S2T models by comparing its scores to
input saliency maps derived from feature attribution. Our analysis spans
monolingual and multilingual, single-task and multi-task models at multiple
scales, and shows that attention scores moderately to strongly align with
saliency-based explanations, particularly when aggregated across heads and
layers. However, it also shows that cross-attention captures only about 50% of
the input relevance and, in the best case, only partially reflects how the
decoder attends to the encoder's representations--accounting for just 52-75% of
the saliency. These findings uncover fundamental limitations in interpreting
cross-attention as an explanatory proxy, suggesting that it offers an
informative yet incomplete view of the factors driving predictions in S2T
models.