ChatPaper.aiChatPaper

Come Valutare la Traduzione di Discorso con Metriche Neurali MT Consapevoli del Testo Sorgente

How to Evaluate Speech Translation with Source-Aware Neural MT Metrics

November 5, 2025
Autori: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI

Abstract

La valutazione automatica dei sistemi di traduzione parlato-testo (ST) viene tipicamente effettuata confrontando le ipotesi di traduzione con una o più traduzioni di riferimento. Sebbene efficace in una certa misura, questo approccio eredita la limitazione della valutazione basata su riferimento, che ignora informazioni preziose provenienti dall'input sorgente. Nella traduzione automatica (MT), i recenti progressi hanno dimostrato che le metriche neurali che incorporano il testo sorgente raggiungono una correlazione più forte con i giudizi umani. Estendere questa idea allo ST, tuttavia, non è banale perché la sorgente è audio anziché testo, e trascrizioni affidabili o allineamenti tra sorgente e riferimenti sono spesso non disponibili. In questo lavoro, conduciamo il primo studio sistematico sulle metriche consapevoli della sorgente per lo ST, con un particolare focus sulle condizioni operative del mondo reale in cui le trascrizioni sorgente non sono disponibili. Esploriamo due strategie complementari per generare proxy testuali dell'audio di input: le trascrizioni del riconoscimento vocale automatico (ASR) e le back-traduzioni della traduzione di riferimento, e introduciamo un nuovo algoritmo di risegmentazione cross-linguale in due fasi per affrontare il disallineamento tra le sorgenti sintetiche e le traduzioni di riferimento. I nostri esperimenti, condotti su due benchmark ST che coprono 79 coppie linguistiche e sei sistemi ST con architetture e livelli di prestazione diversi, mostrano che le trascrizioni ASR costituiscono una sorgente sintetica più affidabile delle back-traduzioni quando il tasso di errore sulle parole è inferiore al 20%, mentre le back-traduzioni rappresentano sempre un'alternativa computazionalmente più economica ma comunque efficace. Inoltre, il nostro algoritmo di risegmentazione cross-linguale consente un uso robusto delle metriche MT consapevoli della sorgente nella valutazione ST, aprendo la strada verso metodologie di valutazione per la traduzione parlato-testo più accurate e basate su principi solidi.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically performed by comparing translation hypotheses with one or more reference translations. While effective to some extent, this approach inherits the limitation of reference-based evaluation that ignores valuable information from the source input. In machine translation (MT), recent progress has shown that neural metrics incorporating the source text achieve stronger correlation with human judgments. Extending this idea to ST, however, is not trivial because the source is audio rather than text, and reliable transcripts or alignments between source and references are often unavailable. In this work, we conduct the first systematic study of source-aware metrics for ST, with a particular focus on real-world operating conditions where source transcripts are not available. We explore two complementary strategies for generating textual proxies of the input audio, automatic speech recognition (ASR) transcripts, and back-translations of the reference translation, and introduce a novel two-step cross-lingual re-segmentation algorithm to address the alignment mismatch between synthetic sources and reference translations. Our experiments, carried out on two ST benchmarks covering 79 language pairs and six ST systems with diverse architectures and performance levels, show that ASR transcripts constitute a more reliable synthetic source than back-translations when word error rate is below 20%, while back-translations always represent a computationally cheaper but still effective alternative. Furthermore, our cross-lingual re-segmentation algorithm enables robust use of source-aware MT metrics in ST evaluation, paving the way toward more accurate and principled evaluation methodologies for speech translation.
PDF32December 2, 2025