Come Valutare la Traduzione di Discorso con Metriche Neurali MT Consapevoli del Testo Sorgente
How to Evaluate Speech Translation with Source-Aware Neural MT Metrics
November 5, 2025
Autori: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI
Abstract
La valutazione automatica dei sistemi di traduzione parlato-testo (ST) viene tipicamente effettuata confrontando le ipotesi di traduzione con una o più traduzioni di riferimento. Sebbene efficace in una certa misura, questo approccio eredita la limitazione della valutazione basata su riferimento, che ignora informazioni preziose provenienti dall'input sorgente. Nella traduzione automatica (MT), i recenti progressi hanno dimostrato che le metriche neurali che incorporano il testo sorgente raggiungono una correlazione più forte con i giudizi umani. Estendere questa idea allo ST, tuttavia, non è banale perché la sorgente è audio anziché testo, e trascrizioni affidabili o allineamenti tra sorgente e riferimenti sono spesso non disponibili. In questo lavoro, conduciamo il primo studio sistematico sulle metriche consapevoli della sorgente per lo ST, con un particolare focus sulle condizioni operative del mondo reale in cui le trascrizioni sorgente non sono disponibili. Esploriamo due strategie complementari per generare proxy testuali dell'audio di input: le trascrizioni del riconoscimento vocale automatico (ASR) e le back-traduzioni della traduzione di riferimento, e introduciamo un nuovo algoritmo di risegmentazione cross-linguale in due fasi per affrontare il disallineamento tra le sorgenti sintetiche e le traduzioni di riferimento. I nostri esperimenti, condotti su due benchmark ST che coprono 79 coppie linguistiche e sei sistemi ST con architetture e livelli di prestazione diversi, mostrano che le trascrizioni ASR costituiscono una sorgente sintetica più affidabile delle back-traduzioni quando il tasso di errore sulle parole è inferiore al 20%, mentre le back-traduzioni rappresentano sempre un'alternativa computazionalmente più economica ma comunque efficace. Inoltre, il nostro algoritmo di risegmentazione cross-linguale consente un uso robusto delle metriche MT consapevoli della sorgente nella valutazione ST, aprendo la strada verso metodologie di valutazione per la traduzione parlato-testo più accurate e basate su principi solidi.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically
performed by comparing translation hypotheses with one or more reference
translations. While effective to some extent, this approach inherits the
limitation of reference-based evaluation that ignores valuable information from
the source input. In machine translation (MT), recent progress has shown that
neural metrics incorporating the source text achieve stronger correlation with
human judgments. Extending this idea to ST, however, is not trivial because the
source is audio rather than text, and reliable transcripts or alignments
between source and references are often unavailable. In this work, we conduct
the first systematic study of source-aware metrics for ST, with a particular
focus on real-world operating conditions where source transcripts are not
available. We explore two complementary strategies for generating textual
proxies of the input audio, automatic speech recognition (ASR) transcripts, and
back-translations of the reference translation, and introduce a novel two-step
cross-lingual re-segmentation algorithm to address the alignment mismatch
between synthetic sources and reference translations. Our experiments, carried
out on two ST benchmarks covering 79 language pairs and six ST systems with
diverse architectures and performance levels, show that ASR transcripts
constitute a more reliable synthetic source than back-translations when word
error rate is below 20%, while back-translations always represent a
computationally cheaper but still effective alternative. Furthermore, our
cross-lingual re-segmentation algorithm enables robust use of source-aware MT
metrics in ST evaluation, paving the way toward more accurate and principled
evaluation methodologies for speech translation.