크로스 어텐션은 음성-텍스트 모델에서 설명의 절반을 차지한다.
Cross-Attention is Half Explanation in Speech-to-Text Models
September 22, 2025
저자: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
cs.AI
초록
크로스 어텐션(cross-attention)은 음성-텍스트(S2T) 처리를 포함한 다양한 분야에서 널리 사용되는 인코더-디코더 아키텍처의 핵심 메커니즘입니다. 크로스 어텐션 점수는 입력 음성 표현과 생성된 텍스트 간의 의존성을 반영한다는 가정 하에, 타임스탬프 추정 및 오디오-텍스트 정렬과 같은 다양한 다운스트림 작업에 재사용되어 왔습니다. 더 넓은 자연어 처리(NLP) 문헌에서 어텐션 메커니즘의 설명력에 대한 논쟁이 지속되어 왔음에도 불구하고, 이러한 가정은 음성 도메인 내에서 크게 탐구되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 크로스 어텐션 점수를 특성 귀속(feature attribution)에서 도출된 입력 중요도 맵(saliency map)과 비교하여 S2T 모델에서의 설명력을 평가합니다. 우리의 분석은 단일 언어 및 다국어, 단일 작업 및 다중 작업 모델을 다양한 규모로 포괄하며, 어텐션 점수가 특히 헤드와 레이어를 통합할 때 중요도 기반 설명과 중간에서 강한 수준으로 일치함을 보여줍니다. 그러나 크로스 어텐션은 입력 관련성의 약 50%만 포착하며, 최상의 경우에도 디코더가 인코더의 표현에 주의를 기울이는 방식을 부분적으로만 반영합니다. 이는 중요도의 52-75%만을 설명합니다. 이러한 발견들은 크로스 어텐션을 설명적 프록시로 해석하는 데 있어 근본적인 한계를 드러내며, S2T 모델의 예측을 이끄는 요인에 대한 유익하지만 불완전한 시각을 제공함을 시사합니다.
English
Cross-attention is a core mechanism in encoder-decoder architectures,
widespread in many fields, including speech-to-text (S2T) processing. Its
scores have been repurposed for various downstream applications--such as
timestamp estimation and audio-text alignment--under the assumption that they
reflect the dependencies between input speech representation and the generated
text. While the explanatory nature of attention mechanisms has been widely
debated in the broader NLP literature, this assumption remains largely
unexplored within the speech domain. To address this gap, we assess the
explanatory power of cross-attention in S2T models by comparing its scores to
input saliency maps derived from feature attribution. Our analysis spans
monolingual and multilingual, single-task and multi-task models at multiple
scales, and shows that attention scores moderately to strongly align with
saliency-based explanations, particularly when aggregated across heads and
layers. However, it also shows that cross-attention captures only about 50% of
the input relevance and, in the best case, only partially reflects how the
decoder attends to the encoder's representations--accounting for just 52-75% of
the saliency. These findings uncover fundamental limitations in interpreting
cross-attention as an explanatory proxy, suggesting that it offers an
informative yet incomplete view of the factors driving predictions in S2T
models.