Besser spät als nie: Bewertung von Latenzmetriken für die simultane Sprach-zu-Text-Übersetzung
Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation
September 22, 2025
papers.authors: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI
papers.abstract
Simultane Sprach-zu-Text-Übersetzungssysteme (SimulST) müssen eine Balance zwischen Übersetzungsqualität und Latenz – der Verzögerung zwischen Spracheingabe und übersetzter Ausgabe – herstellen. Während die Qualitätsbewertung gut etabliert ist, bleibt die genaue Messung der Latenz eine Herausforderung. Bestehende Metriken liefern oft inkonsistente oder irreführende Ergebnisse, insbesondere im weit verbreiteten Kurzform-Setting, bei dem Sprache künstlich vorsegmentiert wird. In diesem Artikel präsentieren wir die erste umfassende Analyse von SimulST-Latenzmetriken über Sprachpaare, Systeme sowie Kurz- und Langform-Regime hinweg. Wir decken eine strukturelle Verzerrung in aktuellen Metriken auf, die mit der Segmentierung zusammenhängt und faire und aussagekräftige Vergleiche untergräbt. Um dies zu beheben, führen wir YAAL (Yet Another Average Lagging) ein, eine verfeinerte Latenzmetrik, die genauere Bewertungen im Kurzform-Regime liefert. Wir erweitern YAAL zu LongYAAL für unsegmentierte Audiodaten und schlagen SoftSegmenter vor, ein neuartiges Resegmentierungswerkzeug, das auf wortbasierter Ausrichtung beruht. Unsere Experimente zeigen, dass YAAL und LongYAAL gängige Latenzmetriken übertreffen, während SoftSegmenter die Ausrichtungsqualität in der Langform-Bewertung verbessert. Zusammen ermöglichen sie zuverlässigere Bewertungen von SimulST-Systemen.
English
Simultaneous speech-to-text translation (SimulST) systems have to balance
translation quality with latency--the delay between speech input and the
translated output. While quality evaluation is well established, accurate
latency measurement remains a challenge. Existing metrics often produce
inconsistent or misleading results, especially in the widely used short-form
setting, where speech is artificially presegmented. In this paper, we present
the first comprehensive analysis of SimulST latency metrics across language
pairs, systems, and both short- and long-form regimes. We uncover a structural
bias in current metrics related to segmentation that undermines fair and
meaningful comparisons. To address this, we introduce YAAL (Yet Another Average
Lagging), a refined latency metric that delivers more accurate evaluations in
the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and
propose SoftSegmenter, a novel resegmentation tool based on word-level
alignment. Our experiments show that YAAL and LongYAAL outperform popular
latency metrics, while SoftSegmenter enhances alignment quality in long-form
evaluation, together enabling more reliable assessments of SimulST systems.