Wie man Sprachübersetzung mit quellenbewussten neuronalen MT-Metriken bewertet
How to Evaluate Speech Translation with Source-Aware Neural MT Metrics
November 5, 2025
papers.authors: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI
papers.abstract
Die automatische Evaluierung von Sprach-zu-Text-Übersetzungssystemen (ST) erfolgt typischerweise durch den Vergleich von Übersetzungshypothesen mit einer oder mehreren Referenzübersetzungen. Obwohl dieser Ansatz bis zu einem gewissen Grad effektiv ist, übernimmt er die Einschränkung der referenzbasierten Evaluierung, die wertvolle Informationen aus der Quell-Eingabe ignoriert. In der maschinellen Übersetzung (MT) hat jüngste Forschung gezeigt, dass neuronale Metriken, die den Quelltext einbeziehen, eine stärkere Korrelation mit menschlichen Beurteilungen erreichen. Diese Idee auf ST zu übertragen, ist jedoch nicht trivial, da die Quelle Audio und nicht Text ist und zuverlässige Transkripte oder Alignment zwischen Quelle und Referenzen oft nicht verfügbar sind. In dieser Arbeit führen wir die erste systematische Untersuchung von quellbewussten Metriken für ST durch, mit besonderem Fokus auf realen Betriebsbedingungen, unter denen Quelltranskripte nicht verfügbar sind. Wir untersuchen zwei komplementäre Strategien zur Erzeugung textueller Stellvertreter des Eingabe-Audios: automatische Spracherkennung (ASR)-Transkripte und Rückübersetzungen der Referenzübersetzung, und führen einen neuartigen zweistufigen cross-lingualen Re-Segmentierungsalgorithmus ein, um das Alignment-Problem zwischen synthetischen Quellen und Referenzübersetzungen zu adressieren. Unsere Experimente, durchgeführt an zwei ST-Benchmarks mit 79 Sprachpaaren und sechs ST-Systemen mit unterschiedlichen Architekturen und Leistungsniveaus, zeigen, dass ASR-Transkripte eine zuverlässigere synthetische Quelle darstellen als Rückübersetzungen, wenn die Wortfehlerrate unter 20% liegt, während Rückübersetzungen stets eine recheneffizientere, aber dennoch wirksame Alternative bieten. Darüber hinaus ermöglicht unser cross-lingualer Re-Segmentierungsalgorithmus den robusten Einsatz von quellbewussten MT-Metriken in der ST-Evaluierung und ebnet so den Weg für genauere und prinzipiell bessere Evaluierungsmethoden für Sprachübersetzung.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically
performed by comparing translation hypotheses with one or more reference
translations. While effective to some extent, this approach inherits the
limitation of reference-based evaluation that ignores valuable information from
the source input. In machine translation (MT), recent progress has shown that
neural metrics incorporating the source text achieve stronger correlation with
human judgments. Extending this idea to ST, however, is not trivial because the
source is audio rather than text, and reliable transcripts or alignments
between source and references are often unavailable. In this work, we conduct
the first systematic study of source-aware metrics for ST, with a particular
focus on real-world operating conditions where source transcripts are not
available. We explore two complementary strategies for generating textual
proxies of the input audio, automatic speech recognition (ASR) transcripts, and
back-translations of the reference translation, and introduce a novel two-step
cross-lingual re-segmentation algorithm to address the alignment mismatch
between synthetic sources and reference translations. Our experiments, carried
out on two ST benchmarks covering 79 language pairs and six ST systems with
diverse architectures and performance levels, show that ASR transcripts
constitute a more reliable synthetic source than back-translations when word
error rate is below 20%, while back-translations always represent a
computationally cheaper but still effective alternative. Furthermore, our
cross-lingual re-segmentation algorithm enables robust use of source-aware MT
metrics in ST evaluation, paving the way toward more accurate and principled
evaluation methodologies for speech translation.