Beter laat dan nooit: Evaluatie van latentiemetrieken voor simultane spraak-naar-tekst vertaling
Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation
September 22, 2025
Auteurs: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI
Samenvatting
Simultane spraak-naar-tekst vertaling (SimulST) systemen moeten een balans vinden tussen vertaalkwaliteit en latentie--de vertraging tussen spraakinvoer en de vertaalde uitvoer. Hoewel kwaliteitsevaluatie goed is ingeburgerd, blijft nauwkeurige latentiemeting een uitdaging. Bestaande metrieken leveren vaak inconsistente of misleidende resultaten op, vooral in de veelgebruikte short-form setting, waarbij spraak kunstmatig vooraf is gesegmenteerd. In dit artikel presenteren we de eerste uitgebreide analyse van SimulST latentiemetrieken over taalparen, systemen en zowel short- als long-form regimes. We ontdekken een structurele bias in huidige metrieken gerelateerd aan segmentatie die eerlijke en zinvolle vergelijkingen ondermijnt. Om dit aan te pakken, introduceren we YAAL (Yet Another Average Lagging), een verfijnde latentiemetriek die nauwkeurigere evaluaties biedt in het short-form regime. We breiden YAAL uit naar LongYAAL voor ongesegmenteerde audio en stellen SoftSegmenter voor, een nieuw resegmentatietool gebaseerd op woordniveau-uitlijning. Onze experimenten tonen aan dat YAAL en LongYAAL populaire latentiemetrieken overtreffen, terwijl SoftSegmenter de uitlijningskwaliteit in long-form evaluatie verbetert, waardoor samen betrouwbaardere beoordelingen van SimulST systemen mogelijk worden.
English
Simultaneous speech-to-text translation (SimulST) systems have to balance
translation quality with latency--the delay between speech input and the
translated output. While quality evaluation is well established, accurate
latency measurement remains a challenge. Existing metrics often produce
inconsistent or misleading results, especially in the widely used short-form
setting, where speech is artificially presegmented. In this paper, we present
the first comprehensive analysis of SimulST latency metrics across language
pairs, systems, and both short- and long-form regimes. We uncover a structural
bias in current metrics related to segmentation that undermines fair and
meaningful comparisons. To address this, we introduce YAAL (Yet Another Average
Lagging), a refined latency metric that delivers more accurate evaluations in
the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and
propose SoftSegmenter, a novel resegmentation tool based on word-level
alignment. Our experiments show that YAAL and LongYAAL outperform popular
latency metrics, while SoftSegmenter enhances alignment quality in long-form
evaluation, together enabling more reliable assessments of SimulST systems.