ChatPaper.aiChatPaper

Wie man Sprachübersetzung mit quellenbewussten neuronalen MT-Metriken bewertet

How to Evaluate Speech Translation with Source-Aware Neural MT Metrics

November 5, 2025
papers.authors: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI

papers.abstract

Die automatische Evaluierung von Sprach-zu-Text-Übersetzungssystemen (ST) erfolgt typischerweise durch den Vergleich von Übersetzungshypothesen mit einer oder mehreren Referenzübersetzungen. Obwohl dieser Ansatz bis zu einem gewissen Grad effektiv ist, übernimmt er die Einschränkung der referenzbasierten Evaluierung, die wertvolle Informationen aus der Quell-Eingabe ignoriert. In der maschinellen Übersetzung (MT) hat jüngste Forschung gezeigt, dass neuronale Metriken, die den Quelltext einbeziehen, eine stärkere Korrelation mit menschlichen Beurteilungen erreichen. Diese Idee auf ST zu übertragen, ist jedoch nicht trivial, da die Quelle Audio und nicht Text ist und zuverlässige Transkripte oder Alignment zwischen Quelle und Referenzen oft nicht verfügbar sind. In dieser Arbeit führen wir die erste systematische Untersuchung von quellbewussten Metriken für ST durch, mit besonderem Fokus auf realen Betriebsbedingungen, unter denen Quelltranskripte nicht verfügbar sind. Wir untersuchen zwei komplementäre Strategien zur Erzeugung textueller Stellvertreter des Eingabe-Audios: automatische Spracherkennung (ASR)-Transkripte und Rückübersetzungen der Referenzübersetzung, und führen einen neuartigen zweistufigen cross-lingualen Re-Segmentierungsalgorithmus ein, um das Alignment-Problem zwischen synthetischen Quellen und Referenzübersetzungen zu adressieren. Unsere Experimente, durchgeführt an zwei ST-Benchmarks mit 79 Sprachpaaren und sechs ST-Systemen mit unterschiedlichen Architekturen und Leistungsniveaus, zeigen, dass ASR-Transkripte eine zuverlässigere synthetische Quelle darstellen als Rückübersetzungen, wenn die Wortfehlerrate unter 20% liegt, während Rückübersetzungen stets eine recheneffizientere, aber dennoch wirksame Alternative bieten. Darüber hinaus ermöglicht unser cross-lingualer Re-Segmentierungsalgorithmus den robusten Einsatz von quellbewussten MT-Metriken in der ST-Evaluierung und ebnet so den Weg für genauere und prinzipiell bessere Evaluierungsmethoden für Sprachübersetzung.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically performed by comparing translation hypotheses with one or more reference translations. While effective to some extent, this approach inherits the limitation of reference-based evaluation that ignores valuable information from the source input. In machine translation (MT), recent progress has shown that neural metrics incorporating the source text achieve stronger correlation with human judgments. Extending this idea to ST, however, is not trivial because the source is audio rather than text, and reliable transcripts or alignments between source and references are often unavailable. In this work, we conduct the first systematic study of source-aware metrics for ST, with a particular focus on real-world operating conditions where source transcripts are not available. We explore two complementary strategies for generating textual proxies of the input audio, automatic speech recognition (ASR) transcripts, and back-translations of the reference translation, and introduce a novel two-step cross-lingual re-segmentation algorithm to address the alignment mismatch between synthetic sources and reference translations. Our experiments, carried out on two ST benchmarks covering 79 language pairs and six ST systems with diverse architectures and performance levels, show that ASR transcripts constitute a more reliable synthetic source than back-translations when word error rate is below 20%, while back-translations always represent a computationally cheaper but still effective alternative. Furthermore, our cross-lingual re-segmentation algorithm enables robust use of source-aware MT metrics in ST evaluation, paving the way toward more accurate and principled evaluation methodologies for speech translation.
PDF32December 2, 2025