Cross-Attention ist die halbe Erklärung in Sprach-zu-Text-Modellen.
Cross-Attention is Half Explanation in Speech-to-Text Models
September 22, 2025
papers.authors: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
cs.AI
papers.abstract
Cross-Attention ist ein Kernmechanismus in Encoder-Decoder-Architekturen, der in vielen Bereichen weit verbreitet ist, einschließlich der Sprach-zu-Text-Verarbeitung (S2T). Seine Scores wurden für verschiedene nachgelagerte Anwendungen – wie die Schätzung von Zeitstempeln und die Audio-Text-Ausrichtung – wiederverwendet, unter der Annahme, dass sie die Abhängigkeiten zwischen der Eingabesprachrepräsentation und dem generierten Text widerspiegeln. Während die erklärende Natur von Aufmerksamkeitsmechanismen in der breiteren NLP-Literatur intensiv diskutiert wurde, bleibt diese Annahme im Bereich der Sprachverarbeitung weitgehend unerforscht. Um diese Lücke zu schließen, bewerten wir die erklärende Kraft der Cross-Attention in S2T-Modellen, indem wir ihre Scores mit Eingabe-Saliency-Maps vergleichen, die aus der Attributionsanalyse von Merkmalen abgeleitet wurden. Unsere Analyse umfasst monolinguale und multilinguale, Single-Task- und Multi-Task-Modelle in verschiedenen Größenordnungen und zeigt, dass die Aufmerksamkeits-Scores mäßig bis stark mit salienzbasierten Erklärungen übereinstimmen, insbesondere wenn sie über Köpfe und Schichten aggregiert werden. Sie zeigt jedoch auch, dass die Cross-Attention nur etwa 50 % der Eingaberelevanz erfasst und im besten Fall nur teilweise widerspiegelt, wie der Decoder die Repräsentationen des Encoders berücksichtigt – was lediglich 52–75 % der Salienz ausmacht. Diese Erkenntnisse decken grundlegende Einschränkungen bei der Interpretation der Cross-Attention als erklärendes Proxy auf und legen nahe, dass sie eine informative, aber unvollständige Sicht auf die Faktoren bietet, die die Vorhersagen in S2T-Modellen antreiben.
English
Cross-attention is a core mechanism in encoder-decoder architectures,
widespread in many fields, including speech-to-text (S2T) processing. Its
scores have been repurposed for various downstream applications--such as
timestamp estimation and audio-text alignment--under the assumption that they
reflect the dependencies between input speech representation and the generated
text. While the explanatory nature of attention mechanisms has been widely
debated in the broader NLP literature, this assumption remains largely
unexplored within the speech domain. To address this gap, we assess the
explanatory power of cross-attention in S2T models by comparing its scores to
input saliency maps derived from feature attribution. Our analysis spans
monolingual and multilingual, single-task and multi-task models at multiple
scales, and shows that attention scores moderately to strongly align with
saliency-based explanations, particularly when aggregated across heads and
layers. However, it also shows that cross-attention captures only about 50% of
the input relevance and, in the best case, only partially reflects how the
decoder attends to the encoder's representations--accounting for just 52-75% of
the saliency. These findings uncover fundamental limitations in interpreting
cross-attention as an explanatory proxy, suggesting that it offers an
informative yet incomplete view of the factors driving predictions in S2T
models.