늦더라도 없는 것보다 낫다: 동시 음성-텍스트 번역을 위한 지연 시간 메트릭 평가
Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation
September 22, 2025
저자: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI
초록
동시 음성-텍스트 번역(SimulST) 시스템은 번역 품질과 지연 시간(음성 입력과 번역된 출력 사이의 시간 차이) 사이의 균형을 맞춰야 합니다. 품질 평가는 잘 정립되어 있지만, 정확한 지연 시간 측정은 여전히 어려운 과제로 남아 있습니다. 기존의 지표들은 종종 일관되지 않거나 오해의 소지가 있는 결과를 내놓는데, 특히 음성이 인위적으로 사전 분할된 널리 사용되는 단편(short-form) 설정에서 더욱 그러합니다. 본 논문에서는 다양한 언어 쌍, 시스템, 그리고 단편 및 장편(long-form) 설정에 걸쳐 SimulST 지연 시간 지표에 대한 첫 번째 포괄적인 분석을 제시합니다. 우리는 분할과 관련된 현재 지표들의 구조적 편향을 발견했는데, 이는 공정하고 의미 있는 비교를 훼손합니다. 이를 해결하기 위해, 단편 설정에서 더 정확한 평가를 제공하는 개선된 지연 시간 지표인 YAAL(Yet Another Average Lagging)을 소개합니다. 또한, YAAL을 비분할 오디오에 적용한 LongYAAL을 확장하고, 단어 수준 정렬을 기반으로 한 새로운 재분할 도구인 SoftSegmenter를 제안합니다. 우리의 실험 결과, YAAL과 LongYAAL은 널리 사용되는 지연 시간 지표들을 능가하며, SoftSegmenter는 장편 평가에서 정렬 품질을 향상시켜, SimulST 시스템의 더 신뢰할 수 있는 평가를 가능하게 합니다.
English
Simultaneous speech-to-text translation (SimulST) systems have to balance
translation quality with latency--the delay between speech input and the
translated output. While quality evaluation is well established, accurate
latency measurement remains a challenge. Existing metrics often produce
inconsistent or misleading results, especially in the widely used short-form
setting, where speech is artificially presegmented. In this paper, we present
the first comprehensive analysis of SimulST latency metrics across language
pairs, systems, and both short- and long-form regimes. We uncover a structural
bias in current metrics related to segmentation that undermines fair and
meaningful comparisons. To address this, we introduce YAAL (Yet Another Average
Lagging), a refined latency metric that delivers more accurate evaluations in
the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and
propose SoftSegmenter, a novel resegmentation tool based on word-level
alignment. Our experiments show that YAAL and LongYAAL outperform popular
latency metrics, while SoftSegmenter enhances alignment quality in long-form
evaluation, together enabling more reliable assessments of SimulST systems.