ChatPaper.aiChatPaper

Beter laat dan nooit: Evaluatie van latentiemetrieken voor simultane spraak-naar-tekst vertaling

Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

September 22, 2025
Auteurs: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI

Samenvatting

Simultane spraak-naar-tekst vertaling (SimulST) systemen moeten een balans vinden tussen vertaalkwaliteit en latentie--de vertraging tussen spraakinvoer en de vertaalde uitvoer. Hoewel kwaliteitsevaluatie goed is ingeburgerd, blijft nauwkeurige latentiemeting een uitdaging. Bestaande metrieken leveren vaak inconsistente of misleidende resultaten op, vooral in de veelgebruikte short-form setting, waarbij spraak kunstmatig vooraf is gesegmenteerd. In dit artikel presenteren we de eerste uitgebreide analyse van SimulST latentiemetrieken over taalparen, systemen en zowel short- als long-form regimes. We ontdekken een structurele bias in huidige metrieken gerelateerd aan segmentatie die eerlijke en zinvolle vergelijkingen ondermijnt. Om dit aan te pakken, introduceren we YAAL (Yet Another Average Lagging), een verfijnde latentiemetriek die nauwkeurigere evaluaties biedt in het short-form regime. We breiden YAAL uit naar LongYAAL voor ongesegmenteerde audio en stellen SoftSegmenter voor, een nieuw resegmentatietool gebaseerd op woordniveau-uitlijning. Onze experimenten tonen aan dat YAAL en LongYAAL populaire latentiemetrieken overtreffen, terwijl SoftSegmenter de uitlijningskwaliteit in long-form evaluatie verbetert, waardoor samen betrouwbaardere beoordelingen van SimulST systemen mogelijk worden.
English
Simultaneous speech-to-text translation (SimulST) systems have to balance translation quality with latency--the delay between speech input and the translated output. While quality evaluation is well established, accurate latency measurement remains a challenge. Existing metrics often produce inconsistent or misleading results, especially in the widely used short-form setting, where speech is artificially presegmented. In this paper, we present the first comprehensive analysis of SimulST latency metrics across language pairs, systems, and both short- and long-form regimes. We uncover a structural bias in current metrics related to segmentation that undermines fair and meaningful comparisons. To address this, we introduce YAAL (Yet Another Average Lagging), a refined latency metric that delivers more accurate evaluations in the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and propose SoftSegmenter, a novel resegmentation tool based on word-level alignment. Our experiments show that YAAL and LongYAAL outperform popular latency metrics, while SoftSegmenter enhances alignment quality in long-form evaluation, together enabling more reliable assessments of SimulST systems.
PDF22September 24, 2025