ChatPaper.aiChatPaper

Cómo evaluar la traducción de voz con métricas neuronales de traducción automática conscientes del texto fuente

How to Evaluate Speech Translation with Source-Aware Neural MT Metrics

November 5, 2025
Autores: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI

Resumen

La evaluación automática de los sistemas de traducción de voz a texto (ST) se realiza típicamente comparando las hipótesis de traducción con una o más traducciones de referencia. Aunque efectiva hasta cierto punto, este enfoque hereda la limitación de la evaluación basada en referencias que ignora información valiosa de la entrada fuente. En traducción automática (MT), los avances recientes han demostrado que las métricas neuronales que incorporan el texto fuente logran una correlación más fuerte con los juicios humanos. Extender esta idea a la ST, sin embargo, no es trivial porque la fuente es audio en lugar de texto, y a menudo no se dispone de transcripciones fiables o alineaciones entre la fuente y las referencias. En este trabajo, realizamos el primer estudio sistemático de métricas conscientes de la fuente para ST, con un enfoque particular en las condiciones operativas del mundo real donde las transcripciones fuente no están disponibles. Exploramos dos estrategias complementarias para generar proxies textuales del audio de entrada: las transcripciones de reconocimiento automático del habla (ASR) y las retro-traducciones de la traducción de referencia, e introducimos un novedoso algoritmo de re-segmentación cross-lingüe en dos pasos para abordar el desajuste de alineación entre las fuentes sintéticas y las traducciones de referencia. Nuestros experimentos, realizados en dos benchmarks de ST que cubren 79 pares de idiomas y seis sistemas de ST con arquitecturas y niveles de rendimiento diversos, muestran que las transcripciones ASR constituyen una fuente sintética más fiable que las retro-traducciones cuando la tasa de error de palabras es inferior al 20%, mientras que las retro-traducciones representan siempre una alternativa computacionalmente más económica pero aún efectiva. Además, nuestro algoritmo de re-segmentación cross-lingüe permite el uso robusto de métricas de MT conscientes de la fuente en la evaluación de ST, allanando el camino hacia metodologías de evaluación de la traducción del habla más precisas y fundamentadas.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically performed by comparing translation hypotheses with one or more reference translations. While effective to some extent, this approach inherits the limitation of reference-based evaluation that ignores valuable information from the source input. In machine translation (MT), recent progress has shown that neural metrics incorporating the source text achieve stronger correlation with human judgments. Extending this idea to ST, however, is not trivial because the source is audio rather than text, and reliable transcripts or alignments between source and references are often unavailable. In this work, we conduct the first systematic study of source-aware metrics for ST, with a particular focus on real-world operating conditions where source transcripts are not available. We explore two complementary strategies for generating textual proxies of the input audio, automatic speech recognition (ASR) transcripts, and back-translations of the reference translation, and introduce a novel two-step cross-lingual re-segmentation algorithm to address the alignment mismatch between synthetic sources and reference translations. Our experiments, carried out on two ST benchmarks covering 79 language pairs and six ST systems with diverse architectures and performance levels, show that ASR transcripts constitute a more reliable synthetic source than back-translations when word error rate is below 20%, while back-translations always represent a computationally cheaper but still effective alternative. Furthermore, our cross-lingual re-segmentation algorithm enables robust use of source-aware MT metrics in ST evaluation, paving the way toward more accurate and principled evaluation methodologies for speech translation.
PDF32December 2, 2025