Meglio tardi che mai: Valutazione delle metriche di latenza per la traduzione simultanea da voce a testo
Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation
September 22, 2025
Autori: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI
Abstract
I sistemi di traduzione simultanea da parlato a testo (SimulST) devono bilanciare la qualità della traduzione con la latenza—il ritardo tra l'input vocale e l'output tradotto. Mentre la valutazione della qualità è ben consolidata, la misurazione accurata della latenza rimane una sfida. Le metriche esistenti spesso producono risultati incoerenti o fuorvianti, specialmente nel contesto ampiamente utilizzato del formato breve, in cui il parlato è artificialmente pre-segmentato. In questo articolo, presentiamo la prima analisi completa delle metriche di latenza per SimulST attraverso coppie di lingue, sistemi e regimi sia brevi che lunghi. Riveliamo un bias strutturale nelle metriche attuali legato alla segmentazione che compromette confronti equi e significativi. Per affrontare questo problema, introduciamo YAAL (Yet Another Average Lagging), una metrica di latenza raffinata che fornisce valutazioni più accurate nel regime di formato breve. Estendiamo YAAL a LongYAAL per audio non segmentato e proponiamo SoftSegmenter, uno strumento innovativo di ri-segmentazione basato sull'allineamento a livello di parola. I nostri esperimenti dimostrano che YAAL e LongYAAL superano le metriche di latenza più diffuse, mentre SoftSegmenter migliora la qualità dell'allineamento nella valutazione di formato lungo, consentendo insieme valutazioni più affidabili dei sistemi SimulST.
English
Simultaneous speech-to-text translation (SimulST) systems have to balance
translation quality with latency--the delay between speech input and the
translated output. While quality evaluation is well established, accurate
latency measurement remains a challenge. Existing metrics often produce
inconsistent or misleading results, especially in the widely used short-form
setting, where speech is artificially presegmented. In this paper, we present
the first comprehensive analysis of SimulST latency metrics across language
pairs, systems, and both short- and long-form regimes. We uncover a structural
bias in current metrics related to segmentation that undermines fair and
meaningful comparisons. To address this, we introduce YAAL (Yet Another Average
Lagging), a refined latency metric that delivers more accurate evaluations in
the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and
propose SoftSegmenter, a novel resegmentation tool based on word-level
alignment. Our experiments show that YAAL and LongYAAL outperform popular
latency metrics, while SoftSegmenter enhances alignment quality in long-form
evaluation, together enabling more reliable assessments of SimulST systems.