Лучше поздно, чем никогда: оценка метрик задержки для синхронного преобразования речи в текст
Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation
September 22, 2025
Авторы: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI
Аннотация
Системы одновременного перевода речи в текст (SimulST) должны находить баланс между качеством перевода и задержкой — временным промежутком между речевым входом и переведённым выходом. Хотя оценка качества хорошо разработана, точное измерение задержки остаётся сложной задачей. Существующие метрики часто дают противоречивые или вводящие в заблуждение результаты, особенно в широко используемом режиме коротких форм, где речь искусственно предварительно сегментирована. В данной статье мы представляем первый всесторонний анализ метрик задержки SimulST для различных языковых пар, систем и режимов как коротких, так и длинных форм. Мы выявляем структурное смещение в текущих метриках, связанное с сегментацией, которое подрывает справедливые и значимые сравнения. Для решения этой проблемы мы вводим YAAL (Yet Another Average Lagging), усовершенствованную метрику задержки, которая обеспечивает более точные оценки в режиме коротких форм. Мы расширяем YAAL до LongYAAL для несегментированного аудио и предлагаем SoftSegmenter, новый инструмент повторной сегментации, основанный на выравнивании на уровне слов. Наши эксперименты показывают, что YAAL и LongYAAL превосходят популярные метрики задержки, а SoftSegmenter улучшает качество выравнивания при оценке длинных форм, что вместе позволяет проводить более надёжную оценку систем SimulST.
English
Simultaneous speech-to-text translation (SimulST) systems have to balance
translation quality with latency--the delay between speech input and the
translated output. While quality evaluation is well established, accurate
latency measurement remains a challenge. Existing metrics often produce
inconsistent or misleading results, especially in the widely used short-form
setting, where speech is artificially presegmented. In this paper, we present
the first comprehensive analysis of SimulST latency metrics across language
pairs, systems, and both short- and long-form regimes. We uncover a structural
bias in current metrics related to segmentation that undermines fair and
meaningful comparisons. To address this, we introduce YAAL (Yet Another Average
Lagging), a refined latency metric that delivers more accurate evaluations in
the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and
propose SoftSegmenter, a novel resegmentation tool based on word-level
alignment. Our experiments show that YAAL and LongYAAL outperform popular
latency metrics, while SoftSegmenter enhances alignment quality in long-form
evaluation, together enabling more reliable assessments of SimulST systems.