ChatPaper.aiChatPaper

Mieux vaut tard que jamais : Évaluation des métriques de latence pour la traduction simultanée de parole en texte

Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

September 22, 2025
papers.authors: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI

papers.abstract

Les systèmes de traduction simultanée parole-texte (SimulST) doivent équilibrer la qualité de traduction avec la latence—le délai entre l'entrée vocale et la sortie traduite. Alors que l'évaluation de la qualité est bien établie, la mesure précise de la latence reste un défi. Les métriques existantes produisent souvent des résultats incohérents ou trompeurs, en particulier dans le cadre largement utilisé du format court, où la parole est artificiellement présegmentée. Dans cet article, nous présentons la première analyse exhaustive des métriques de latence SimulST à travers les paires de langues, les systèmes, et les régimes de format court et long. Nous révélons un biais structurel dans les métriques actuelles lié à la segmentation, qui compromet des comparaisons équitables et significatives. Pour y remédier, nous introduisons YAAL (Yet Another Average Lagging), une métrique de latence raffinée qui offre des évaluations plus précises dans le régime de format court. Nous étendons YAAL à LongYAAL pour les audios non segmentés et proposons SoftSegmenter, un nouvel outil de resegmentation basé sur l'alignement au niveau des mots. Nos expériences montrent que YAAL et LongYAAL surpassent les métriques de latence populaires, tandis que SoftSegmenter améliore la qualité de l'alignement dans l'évaluation de format long, permettant ensemble des évaluations plus fiables des systèmes SimulST.
English
Simultaneous speech-to-text translation (SimulST) systems have to balance translation quality with latency--the delay between speech input and the translated output. While quality evaluation is well established, accurate latency measurement remains a challenge. Existing metrics often produce inconsistent or misleading results, especially in the widely used short-form setting, where speech is artificially presegmented. In this paper, we present the first comprehensive analysis of SimulST latency metrics across language pairs, systems, and both short- and long-form regimes. We uncover a structural bias in current metrics related to segmentation that undermines fair and meaningful comparisons. To address this, we introduce YAAL (Yet Another Average Lagging), a refined latency metric that delivers more accurate evaluations in the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and propose SoftSegmenter, a novel resegmentation tool based on word-level alignment. Our experiments show that YAAL and LongYAAL outperform popular latency metrics, while SoftSegmenter enhances alignment quality in long-form evaluation, together enabling more reliable assessments of SimulST systems.
PDF22September 24, 2025