Más vale tarde que nunca: Evaluación de métricas de latencia en la traducción simultánea de voz a texto
Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation
September 22, 2025
Autores: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI
Resumen
Los sistemas de traducción simultánea de voz a texto (SimulST) deben equilibrar la calidad de la traducción con la latencia—el retraso entre la entrada de voz y la salida traducida. Si bien la evaluación de la calidad está bien establecida, la medición precisa de la latencia sigue siendo un desafío. Las métricas existentes a menudo producen resultados inconsistentes o engañosos, especialmente en el entorno de formato corto ampliamente utilizado, donde el habla está segmentada artificialmente de antemano. En este artículo, presentamos el primer análisis exhaustivo de las métricas de latencia de SimulST en pares de idiomas, sistemas y regímenes tanto de formato corto como largo. Descubrimos un sesgo estructural en las métricas actuales relacionado con la segmentación que socava las comparaciones justas y significativas. Para abordar esto, introducimos YAAL (Yet Another Average Lagging), una métrica de latencia refinada que ofrece evaluaciones más precisas en el régimen de formato corto. Extendemos YAAL a LongYAAL para audio no segmentado y proponemos SoftSegmenter, una herramienta novedosa de resegmentación basada en alineación a nivel de palabra. Nuestros experimentos muestran que YAAL y LongYAAL superan a las métricas de latencia populares, mientras que SoftSegmenter mejora la calidad de la alineación en la evaluación de formato largo, permitiendo juntos evaluaciones más confiables de los sistemas SimulST.
English
Simultaneous speech-to-text translation (SimulST) systems have to balance
translation quality with latency--the delay between speech input and the
translated output. While quality evaluation is well established, accurate
latency measurement remains a challenge. Existing metrics often produce
inconsistent or misleading results, especially in the widely used short-form
setting, where speech is artificially presegmented. In this paper, we present
the first comprehensive analysis of SimulST latency metrics across language
pairs, systems, and both short- and long-form regimes. We uncover a structural
bias in current metrics related to segmentation that undermines fair and
meaningful comparisons. To address this, we introduce YAAL (Yet Another Average
Lagging), a refined latency metric that delivers more accurate evaluations in
the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and
propose SoftSegmenter, a novel resegmentation tool based on word-level
alignment. Our experiments show that YAAL and LongYAAL outperform popular
latency metrics, while SoftSegmenter enhances alignment quality in long-form
evaluation, together enabling more reliable assessments of SimulST systems.