Cómo evaluar la traducción de voz con métricas neuronales de traducción automática conscientes del texto fuente
How to Evaluate Speech Translation with Source-Aware Neural MT Metrics
November 5, 2025
Autores: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI
Resumen
La evaluación automática de los sistemas de traducción de voz a texto (ST) se realiza típicamente comparando las hipótesis de traducción con una o más traducciones de referencia. Aunque efectiva hasta cierto punto, este enfoque hereda la limitación de la evaluación basada en referencias que ignora información valiosa de la entrada fuente. En traducción automática (MT), los avances recientes han demostrado que las métricas neuronales que incorporan el texto fuente logran una correlación más fuerte con los juicios humanos. Extender esta idea a la ST, sin embargo, no es trivial porque la fuente es audio en lugar de texto, y a menudo no se dispone de transcripciones fiables o alineaciones entre la fuente y las referencias. En este trabajo, realizamos el primer estudio sistemático de métricas conscientes de la fuente para ST, con un enfoque particular en las condiciones operativas del mundo real donde las transcripciones fuente no están disponibles. Exploramos dos estrategias complementarias para generar proxies textuales del audio de entrada: las transcripciones de reconocimiento automático del habla (ASR) y las retro-traducciones de la traducción de referencia, e introducimos un novedoso algoritmo de re-segmentación cross-lingüe en dos pasos para abordar el desajuste de alineación entre las fuentes sintéticas y las traducciones de referencia. Nuestros experimentos, realizados en dos benchmarks de ST que cubren 79 pares de idiomas y seis sistemas de ST con arquitecturas y niveles de rendimiento diversos, muestran que las transcripciones ASR constituyen una fuente sintética más fiable que las retro-traducciones cuando la tasa de error de palabras es inferior al 20%, mientras que las retro-traducciones representan siempre una alternativa computacionalmente más económica pero aún efectiva. Además, nuestro algoritmo de re-segmentación cross-lingüe permite el uso robusto de métricas de MT conscientes de la fuente en la evaluación de ST, allanando el camino hacia metodologías de evaluación de la traducción del habla más precisas y fundamentadas.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically
performed by comparing translation hypotheses with one or more reference
translations. While effective to some extent, this approach inherits the
limitation of reference-based evaluation that ignores valuable information from
the source input. In machine translation (MT), recent progress has shown that
neural metrics incorporating the source text achieve stronger correlation with
human judgments. Extending this idea to ST, however, is not trivial because the
source is audio rather than text, and reliable transcripts or alignments
between source and references are often unavailable. In this work, we conduct
the first systematic study of source-aware metrics for ST, with a particular
focus on real-world operating conditions where source transcripts are not
available. We explore two complementary strategies for generating textual
proxies of the input audio, automatic speech recognition (ASR) transcripts, and
back-translations of the reference translation, and introduce a novel two-step
cross-lingual re-segmentation algorithm to address the alignment mismatch
between synthetic sources and reference translations. Our experiments, carried
out on two ST benchmarks covering 79 language pairs and six ST systems with
diverse architectures and performance levels, show that ASR transcripts
constitute a more reliable synthetic source than back-translations when word
error rate is below 20%, while back-translations always represent a
computationally cheaper but still effective alternative. Furthermore, our
cross-lingual re-segmentation algorithm enables robust use of source-aware MT
metrics in ST evaluation, paving the way toward more accurate and principled
evaluation methodologies for speech translation.