La Cross-Attention è Metà della Spiegazione nei Modelli di Conversione da Voce a Testo.
Cross-Attention is Half Explanation in Speech-to-Text Models
September 22, 2025
Autori: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
cs.AI
Abstract
La cross-attention è un meccanismo fondamentale nelle architetture encoder-decoder, ampiamente utilizzato in molti campi, incluso l'elaborazione del parlato in testo (S2T). I suoi punteggi sono stati riutilizzati per varie applicazioni downstream, come la stima dei timestamp e l'allineamento audio-testo, presupponendo che riflettano le dipendenze tra la rappresentazione del parlato in input e il testo generato. Sebbene la natura esplicativa dei meccanismi di attenzione sia stata ampiamente dibattuta nella letteratura NLP più generale, questa ipotesi rimane in gran parte inesplorata nel dominio del parlato. Per colmare questa lacuna, valutiamo il potere esplicativo della cross-attention nei modelli S2T confrontando i suoi punteggi con le mappe di salienza dell'input derivate dall'attribuzione delle caratteristiche. La nostra analisi copre modelli monolingue e multilingue, a singolo compito e multi-task, su più scale, e mostra che i punteggi di attenzione si allineano da moderatamente a fortemente con le spiegazioni basate sulla salienza, specialmente quando aggregati tra le teste e i livelli. Tuttavia, mostra anche che la cross-attention cattura solo circa il 50% della rilevanza dell'input e, nel migliore dei casi, riflette solo parzialmente come il decoder presta attenzione alle rappresentazioni dell'encoder, rappresentando solo il 52-75% della salienza. Questi risultati rivelano limitazioni fondamentali nell'interpretare la cross-attention come un proxy esplicativo, suggerendo che offre una visione informativa ma incompleta dei fattori che guidano le previsioni nei modelli S2T.
English
Cross-attention is a core mechanism in encoder-decoder architectures,
widespread in many fields, including speech-to-text (S2T) processing. Its
scores have been repurposed for various downstream applications--such as
timestamp estimation and audio-text alignment--under the assumption that they
reflect the dependencies between input speech representation and the generated
text. While the explanatory nature of attention mechanisms has been widely
debated in the broader NLP literature, this assumption remains largely
unexplored within the speech domain. To address this gap, we assess the
explanatory power of cross-attention in S2T models by comparing its scores to
input saliency maps derived from feature attribution. Our analysis spans
monolingual and multilingual, single-task and multi-task models at multiple
scales, and shows that attention scores moderately to strongly align with
saliency-based explanations, particularly when aggregated across heads and
layers. However, it also shows that cross-attention captures only about 50% of
the input relevance and, in the best case, only partially reflects how the
decoder attends to the encoder's representations--accounting for just 52-75% of
the saliency. These findings uncover fundamental limitations in interpreting
cross-attention as an explanatory proxy, suggesting that it offers an
informative yet incomplete view of the factors driving predictions in S2T
models.