ChatPaper.aiChatPaper

Besser spät als nie: Bewertung von Latenzmetriken für die simultane Sprach-zu-Text-Übersetzung

Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

September 22, 2025
papers.authors: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI

papers.abstract

Simultane Sprach-zu-Text-Übersetzungssysteme (SimulST) müssen eine Balance zwischen Übersetzungsqualität und Latenz – der Verzögerung zwischen Spracheingabe und übersetzter Ausgabe – herstellen. Während die Qualitätsbewertung gut etabliert ist, bleibt die genaue Messung der Latenz eine Herausforderung. Bestehende Metriken liefern oft inkonsistente oder irreführende Ergebnisse, insbesondere im weit verbreiteten Kurzform-Setting, bei dem Sprache künstlich vorsegmentiert wird. In diesem Artikel präsentieren wir die erste umfassende Analyse von SimulST-Latenzmetriken über Sprachpaare, Systeme sowie Kurz- und Langform-Regime hinweg. Wir decken eine strukturelle Verzerrung in aktuellen Metriken auf, die mit der Segmentierung zusammenhängt und faire und aussagekräftige Vergleiche untergräbt. Um dies zu beheben, führen wir YAAL (Yet Another Average Lagging) ein, eine verfeinerte Latenzmetrik, die genauere Bewertungen im Kurzform-Regime liefert. Wir erweitern YAAL zu LongYAAL für unsegmentierte Audiodaten und schlagen SoftSegmenter vor, ein neuartiges Resegmentierungswerkzeug, das auf wortbasierter Ausrichtung beruht. Unsere Experimente zeigen, dass YAAL und LongYAAL gängige Latenzmetriken übertreffen, während SoftSegmenter die Ausrichtungsqualität in der Langform-Bewertung verbessert. Zusammen ermöglichen sie zuverlässigere Bewertungen von SimulST-Systemen.
English
Simultaneous speech-to-text translation (SimulST) systems have to balance translation quality with latency--the delay between speech input and the translated output. While quality evaluation is well established, accurate latency measurement remains a challenge. Existing metrics often produce inconsistent or misleading results, especially in the widely used short-form setting, where speech is artificially presegmented. In this paper, we present the first comprehensive analysis of SimulST latency metrics across language pairs, systems, and both short- and long-form regimes. We uncover a structural bias in current metrics related to segmentation that undermines fair and meaningful comparisons. To address this, we introduce YAAL (Yet Another Average Lagging), a refined latency metric that delivers more accurate evaluations in the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and propose SoftSegmenter, a novel resegmentation tool based on word-level alignment. Our experiments show that YAAL and LongYAAL outperform popular latency metrics, while SoftSegmenter enhances alignment quality in long-form evaluation, together enabling more reliable assessments of SimulST systems.
PDF22September 24, 2025