Кросс-внимание составляет половину объяснения в моделях преобразования речи в текст.
Cross-Attention is Half Explanation in Speech-to-Text Models
September 22, 2025
Авторы: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
cs.AI
Аннотация
Механизм кросс-внимания является ключевым элементом архитектур "кодировщик-декодировщик", широко используемых во многих областях, включая обработку речи в текст (S2T). Его оценки были адаптированы для различных приложений, таких как оценка временных меток и выравнивание аудио и текста, в предположении, что они отражают зависимости между представлением входной речи и сгенерированным текстом. Хотя объяснительная природа механизмов внимания широко обсуждается в литературе по NLP, это предположение остается в значительной степени неисследованным в области обработки речи. Чтобы восполнить этот пробел, мы оцениваем объяснительную силу кросс-внимания в моделях S2T, сравнивая его оценки с картами значимости входных данных, полученными на основе атрибуции признаков. Наш анализ охватывает одноязычные и многоязычные, одно- и многозадачные модели различных масштабов и показывает, что оценки внимания умеренно или сильно согласуются с объяснениями, основанными на значимости, особенно при агрегировании по головам и слоям. Однако он также показывает, что кросс-внимание охватывает лишь около 50% значимости входных данных и в лучшем случае лишь частично отражает то, как декодер учитывает представления кодировщика, объясняя только 52-75% значимости. Эти результаты выявляют фундаментальные ограничения в интерпретации кросс-внимания как объяснительного прокси, предполагая, что оно предлагает информативный, но неполный взгляд на факторы, влияющие на предсказания в моделях S2T.
English
Cross-attention is a core mechanism in encoder-decoder architectures,
widespread in many fields, including speech-to-text (S2T) processing. Its
scores have been repurposed for various downstream applications--such as
timestamp estimation and audio-text alignment--under the assumption that they
reflect the dependencies between input speech representation and the generated
text. While the explanatory nature of attention mechanisms has been widely
debated in the broader NLP literature, this assumption remains largely
unexplored within the speech domain. To address this gap, we assess the
explanatory power of cross-attention in S2T models by comparing its scores to
input saliency maps derived from feature attribution. Our analysis spans
monolingual and multilingual, single-task and multi-task models at multiple
scales, and shows that attention scores moderately to strongly align with
saliency-based explanations, particularly when aggregated across heads and
layers. However, it also shows that cross-attention captures only about 50% of
the input relevance and, in the best case, only partially reflects how the
decoder attends to the encoder's representations--accounting for just 52-75% of
the saliency. These findings uncover fundamental limitations in interpreting
cross-attention as an explanatory proxy, suggesting that it offers an
informative yet incomplete view of the factors driving predictions in S2T
models.