Hoe spraakvertaling te evalueren met bronbewuste neurale MT-metrieken
How to Evaluate Speech Translation with Source-Aware Neural MT Metrics
November 5, 2025
Auteurs: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI
Samenvatting
De automatische evaluatie van spraak-naar-tekst-vertaalsystemen (ST) gebeurt doorgaans door vertaalahypothesen te vergelijken met één of meer referentievertalingen. Hoewel deze aanpak tot op zekere hoogte effectief is, erft ze de beperking van referentiegebaseerde evaluatie waarbij waardevolle informatie uit de broninvoer wordt genegeerd. Bij machinaal vertalen (MT) heeft recente vooruitgang aangetoond dat neurale metrieken die de brontekst incorporeren een sterkere correlatie met menselijke beoordelingen bereiken. Deze gedachte doortrekken naar ST is echter niet triviaal, omdat de bron audio is in plaats van tekst, en betrouwbare transcripties of aligneringen tussen bron en referenties vaak ontbreken. In dit werk voeren we de eerste systematische studie uit naar bronbewuste metrieken voor ST, met bijzondere aandacht voor realistische operationele omstandigheden waarbij brontranscripties niet beschikbaar zijn. We onderzoeken twee complementaire strategieën voor het genereren van tekstuele benaderingen van de invoeraudio: automatische spraakherkenning (ASR)-transcripties en terugvertalingen van de referentievertaling, en introduceren een nieuw tweestaps cross-lingual hersegmenteringsalgoritme om het aligneringsverschil tussen synthetische bronnen en referentievertalingen aan te pakken. Onze experimenten, uitgevoerd op twee ST-referentiepunten met 79 taalparen en zes ST-systemen met uiteenlopende architecturen en prestatieniveaus, tonen aan dat ASR-transcripties een betrouwbaardere synthetische bron vormen dan terugvertalingen wanneer de woordfoutenfrequentie onder de 20% ligt, terwijl terugvertalingen altijd een rekenkundig goedkopere maar nog steeds effectieve alternatief vertegenwoordigen. Bovendien stelt ons cross-linguale hersegmenteringsalgoritme een robuust gebruik van bronbewuste MT-metrieken in ST-evaluatie mogelijk, waarmee de weg wordt geëffend naar nauwkeurigere en meer principiële evaluatiemethodologieën voor spraakvertaling.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically
performed by comparing translation hypotheses with one or more reference
translations. While effective to some extent, this approach inherits the
limitation of reference-based evaluation that ignores valuable information from
the source input. In machine translation (MT), recent progress has shown that
neural metrics incorporating the source text achieve stronger correlation with
human judgments. Extending this idea to ST, however, is not trivial because the
source is audio rather than text, and reliable transcripts or alignments
between source and references are often unavailable. In this work, we conduct
the first systematic study of source-aware metrics for ST, with a particular
focus on real-world operating conditions where source transcripts are not
available. We explore two complementary strategies for generating textual
proxies of the input audio, automatic speech recognition (ASR) transcripts, and
back-translations of the reference translation, and introduce a novel two-step
cross-lingual re-segmentation algorithm to address the alignment mismatch
between synthetic sources and reference translations. Our experiments, carried
out on two ST benchmarks covering 79 language pairs and six ST systems with
diverse architectures and performance levels, show that ASR transcripts
constitute a more reliable synthetic source than back-translations when word
error rate is below 20%, while back-translations always represent a
computationally cheaper but still effective alternative. Furthermore, our
cross-lingual re-segmentation algorithm enables robust use of source-aware MT
metrics in ST evaluation, paving the way toward more accurate and principled
evaluation methodologies for speech translation.