Melhor Tarde do que Nunca: Avaliação de Métricas de Latência para Tradução Simultânea de Fala para Texto
Better Late Than Never: Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation
September 22, 2025
Autores: Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar
cs.AI
Resumo
Sistemas de tradução simultânea de fala para texto (SimulST) precisam equilibrar a qualidade da tradução com a latência—o atraso entre a entrada de fala e a saída traduzida. Embora a avaliação de qualidade seja bem estabelecida, a medição precisa da latência continua sendo um desafio. As métricas existentes frequentemente produzem resultados inconsistentes ou enganosos, especialmente no cenário amplamente utilizado de formato curto, onde a fala é artificialmente pré-segmentada. Neste artigo, apresentamos a primeira análise abrangente das métricas de latência do SimulST em pares de idiomas, sistemas e regimes de formato curto e longo. Revelamos um viés estrutural nas métricas atuais relacionado à segmentação que prejudica comparações justas e significativas. Para resolver isso, introduzimos o YAAL (Yet Another Average Lagging), uma métrica de latência refinada que oferece avaliações mais precisas no regime de formato curto. Estendemos o YAAL para o LongYAAL, destinado a áudio não segmentado, e propomos o SoftSegmenter, uma nova ferramenta de resegmentação baseada em alinhamento em nível de palavra. Nossos experimentos mostram que o YAAL e o LongYAAL superam métricas de latência populares, enquanto o SoftSegmenter melhora a qualidade do alinhamento na avaliação de formato longo, juntos permitindo avaliações mais confiáveis de sistemas SimulST.
English
Simultaneous speech-to-text translation (SimulST) systems have to balance
translation quality with latency--the delay between speech input and the
translated output. While quality evaluation is well established, accurate
latency measurement remains a challenge. Existing metrics often produce
inconsistent or misleading results, especially in the widely used short-form
setting, where speech is artificially presegmented. In this paper, we present
the first comprehensive analysis of SimulST latency metrics across language
pairs, systems, and both short- and long-form regimes. We uncover a structural
bias in current metrics related to segmentation that undermines fair and
meaningful comparisons. To address this, we introduce YAAL (Yet Another Average
Lagging), a refined latency metric that delivers more accurate evaluations in
the short-form regime. We extend YAAL to LongYAAL for unsegmented audio and
propose SoftSegmenter, a novel resegmentation tool based on word-level
alignment. Our experiments show that YAAL and LongYAAL outperform popular
latency metrics, while SoftSegmenter enhances alignment quality in long-form
evaluation, together enabling more reliable assessments of SimulST systems.