La Atención Cruzada es la Mitad de la Explicación en Modelos de Conversión de Voz a Texto
Cross-Attention is Half Explanation in Speech-to-Text Models
September 22, 2025
Autores: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
cs.AI
Resumen
La atención cruzada es un mecanismo central en las arquitecturas codificador-decodificador, ampliamente utilizado en diversos campos, incluido el procesamiento de voz a texto (S2T). Sus puntuaciones se han reutilizado para diversas aplicaciones posteriores, como la estimación de marcas de tiempo y la alineación audio-texto, bajo la suposición de que reflejan las dependencias entre la representación de la voz de entrada y el texto generado. Si bien la naturaleza explicativa de los mecanismos de atención ha sido ampliamente debatida en la literatura más amplia de PLN, esta suposición sigue siendo en gran medida inexplorada en el dominio del habla. Para abordar esta brecha, evaluamos el poder explicativo de la atención cruzada en modelos S2T comparando sus puntuaciones con mapas de relevancia de entrada derivados de la atribución de características. Nuestro análisis abarca modelos monolingües y multilingües, de tarea única y multitarea, a múltiples escalas, y muestra que las puntuaciones de atención se alinean moderada o fuertemente con las explicaciones basadas en relevancia, particularmente cuando se agregan a través de cabezas y capas. Sin embargo, también muestra que la atención cruzada captura solo alrededor del 50% de la relevancia de la entrada y, en el mejor de los casos, solo refleja parcialmente cómo el decodificador atiende a las representaciones del codificador, representando solo el 52-75% de la relevancia. Estos hallazgos revelan limitaciones fundamentales en la interpretación de la atención cruzada como un proxy explicativo, sugiriendo que ofrece una visión informativa pero incompleta de los factores que impulsan las predicciones en los modelos S2T.
English
Cross-attention is a core mechanism in encoder-decoder architectures,
widespread in many fields, including speech-to-text (S2T) processing. Its
scores have been repurposed for various downstream applications--such as
timestamp estimation and audio-text alignment--under the assumption that they
reflect the dependencies between input speech representation and the generated
text. While the explanatory nature of attention mechanisms has been widely
debated in the broader NLP literature, this assumption remains largely
unexplored within the speech domain. To address this gap, we assess the
explanatory power of cross-attention in S2T models by comparing its scores to
input saliency maps derived from feature attribution. Our analysis spans
monolingual and multilingual, single-task and multi-task models at multiple
scales, and shows that attention scores moderately to strongly align with
saliency-based explanations, particularly when aggregated across heads and
layers. However, it also shows that cross-attention captures only about 50% of
the input relevance and, in the best case, only partially reflects how the
decoder attends to the encoder's representations--accounting for just 52-75% of
the saliency. These findings uncover fundamental limitations in interpreting
cross-attention as an explanatory proxy, suggesting that it offers an
informative yet incomplete view of the factors driving predictions in S2T
models.