遅くとも無いよりはまし:同時音声テキスト翻訳におけるレイテンシ指標の評価
Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation
September 22, 2025
著者: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI
要旨
同時音声テキスト翻訳(SimulST)システムは、翻訳品質とレイテンシ(音声入力から翻訳出力までの遅延)のバランスを取る必要がある。品質評価は確立されている一方で、正確なレイテンシ測定は依然として課題である。既存のメトリクスは、特に音声が人工的に事前分割される広く使用されている短形式設定において、一貫性のないまたは誤解を招く結果を生み出すことが多い。本論文では、言語ペア、システム、および短形式と長形式の両方の設定にわたるSimulSTレイテンシメトリクスの初めての包括的分析を提示する。我々は、公平で意味のある比較を損なう、セグメンテーションに関連する現在のメトリクスの構造的バイアスを明らかにする。これを解決するために、短形式設定においてより正確な評価を提供する改良されたレイテンシメトリクスであるYAAL(Yet Another Average Lagging)を導入する。YAALを未分割音声用に拡張したLongYAALを提案し、単語レベルのアラインメントに基づく新しい再分割ツールであるSoftSegmenterを提案する。我々の実験は、YAALとLongYAALが人気のあるレイテンシメトリクスを上回り、SoftSegmenterが長形式評価におけるアラインメント品質を向上させることを示し、これらがSimulSTシステムのより信頼性の高い評価を可能にすることを示している。
English
Simultaneous speech-to-text translation (SimulST) systems have to balance
translation quality with latency--the delay between speech input and the
translated output. While quality evaluation is well established, accurate
latency measurement remains a challenge. Existing metrics often produce
inconsistent or misleading results, especially in the widely used short-form
setting, where speech is artificially presegmented. In this paper, we present
the first comprehensive analysis of SimulST latency metrics across language
pairs, systems, and both short- and long-form regimes. We uncover a structural
bias in current metrics related to segmentation that undermines fair and
meaningful comparisons. To address this, we introduce YAAL (Yet Another Average
Lagging), a refined latency metric that delivers more accurate evaluations in
the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and
propose SoftSegmenter, a novel resegmentation tool based on word-level
alignment. Our experiments show that YAAL and LongYAAL outperform popular
latency metrics, while SoftSegmenter enhances alignment quality in long-form
evaluation, together enabling more reliable assessments of SimulST systems.