クロスアテンションは音声認識モデルにおける説明の半分を担う
Cross-Attention is Half Explanation in Speech-to-Text Models
September 22, 2025
著者: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
cs.AI
要旨
クロスアテンションは、音声テキスト変換(S2T)処理を含む多くの分野で広く使われているエンコーダ-デコーダアーキテクチャの中核的なメカニズムです。そのスコアは、入力音声表現と生成されたテキスト間の依存関係を反映しているという仮定の下で、タイムスタンプ推定や音声-テキストアライメントなど、さまざまな下流アプリケーションに再利用されてきました。アテンションメカニズムの説明能力については、より広範なNLP文献で広く議論されていますが、この仮定は音声領域ではほとんど検証されていません。このギャップを埋めるため、我々はS2Tモデルにおけるクロスアテンションの説明能力を評価するために、そのスコアを特徴属性から導出された入力サリエンシーマップと比較します。我々の分析は、単一言語と多言語、単一タスクとマルチタスクのモデルを複数のスケールでカバーし、特にヘッドやレイヤー全体で集約された場合、アテンションスコアがサリエンシーベースの説明と中程度から強く一致することを示しています。しかし、クロスアテンションは入力の関連性の約50%しか捉えておらず、最良の場合でもデコーダがエンコーダの表現にどのように注意を向けているかを部分的にしか反映していないことも明らかにしました。これは、サリエンシーのわずか52-75%しか説明していません。これらの発見は、クロスアテンションを説明のプロキシとして解釈することの根本的な限界を明らかにし、S2Tモデルの予測を駆動する要因について、有益ではあるが不完全な視点しか提供していないことを示唆しています。
English
Cross-attention is a core mechanism in encoder-decoder architectures,
widespread in many fields, including speech-to-text (S2T) processing. Its
scores have been repurposed for various downstream applications--such as
timestamp estimation and audio-text alignment--under the assumption that they
reflect the dependencies between input speech representation and the generated
text. While the explanatory nature of attention mechanisms has been widely
debated in the broader NLP literature, this assumption remains largely
unexplored within the speech domain. To address this gap, we assess the
explanatory power of cross-attention in S2T models by comparing its scores to
input saliency maps derived from feature attribution. Our analysis spans
monolingual and multilingual, single-task and multi-task models at multiple
scales, and shows that attention scores moderately to strongly align with
saliency-based explanations, particularly when aggregated across heads and
layers. However, it also shows that cross-attention captures only about 50% of
the input relevance and, in the best case, only partially reflects how the
decoder attends to the encoder's representations--accounting for just 52-75% of
the saliency. These findings uncover fundamental limitations in interpreting
cross-attention as an explanatory proxy, suggesting that it offers an
informative yet incomplete view of the factors driving predictions in S2T
models.