Como Avaliar a Tradução de Fala com Métricos de MT Neural Conscientes da Fonte
How to Evaluate Speech Translation with Source-Aware Neural MT Metrics
November 5, 2025
Autores: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI
Resumo
A avaliação automática de sistemas de tradução de fala para texto (ST) é tipicamente realizada através da comparação de hipóteses de tradução com uma ou mais traduções de referência. Embora eficaz até certo ponto, esta abordagem herda a limitação da avaliação baseada em referência, que ignora informações valiosas do *input* de origem. Na tradução automática (MT), progressos recentes demonstraram que métricas neurais que incorporam o texto de origem alcançam uma correlação mais forte com os julgamentos humanos. Estender esta ideia para o ST, no entanto, não é trivial porque a origem é áudio em vez de texto, e transcrições ou alinhamentos confiáveis entre a origem e as referências estão frequentemente indisponíveis. Neste trabalho, realizamos o primeiro estudo sistemático de métricas conscientes da origem para ST, com um foco particular nas condições operacionais do mundo real, onde as transcrições de origem não estão disponíveis. Exploramos duas estratégias complementares para gerar representações textais do áudio de entrada: transcrições de reconhecimento automático de fala (ASR) e retro-traduções da tradução de referência, e introduzimos um novo algoritmo de re-segmentação cruzada em duas etapas para abordar o desalinhamento entre fontes sintéticas e traduções de referência. As nossas experiências, realizadas em dois benchmarks de ST abrangendo 79 pares de idiomas e seis sistemas de ST com arquiteturas e níveis de desempenho diversos, mostram que as transcrições de ASR constituem uma fonte sintética mais confiável do que as retro-traduções quando a taxa de erro de palavra é inferior a 20%, enquanto as retro-traduções representam sempre uma alternativa computacionalmente mais económica, mas ainda assim eficaz. Além disso, o nosso algoritmo de re-segmentação cruzada permite o uso robusto de métricas de MT conscientes da origem na avaliação de ST, abrindo caminho para metodologias de avaliação de tradução de fala mais precisas e fundamentadas.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically
performed by comparing translation hypotheses with one or more reference
translations. While effective to some extent, this approach inherits the
limitation of reference-based evaluation that ignores valuable information from
the source input. In machine translation (MT), recent progress has shown that
neural metrics incorporating the source text achieve stronger correlation with
human judgments. Extending this idea to ST, however, is not trivial because the
source is audio rather than text, and reliable transcripts or alignments
between source and references are often unavailable. In this work, we conduct
the first systematic study of source-aware metrics for ST, with a particular
focus on real-world operating conditions where source transcripts are not
available. We explore two complementary strategies for generating textual
proxies of the input audio, automatic speech recognition (ASR) transcripts, and
back-translations of the reference translation, and introduce a novel two-step
cross-lingual re-segmentation algorithm to address the alignment mismatch
between synthetic sources and reference translations. Our experiments, carried
out on two ST benchmarks covering 79 language pairs and six ST systems with
diverse architectures and performance levels, show that ASR transcripts
constitute a more reliable synthetic source than back-translations when word
error rate is below 20%, while back-translations always represent a
computationally cheaper but still effective alternative. Furthermore, our
cross-lingual re-segmentation algorithm enables robust use of source-aware MT
metrics in ST evaluation, paving the way toward more accurate and principled
evaluation methodologies for speech translation.