Como Avaliar a Tradução de Fala com Métricos de MT Neural Conscientes da Fonte

Resumo

A avaliação automática de sistemas de tradução de fala para texto (ST) é tipicamente realizada através da comparação de hipóteses de tradução com uma ou mais traduções de referência. Embora eficaz até certo ponto, esta abordagem herda a limitação da avaliação baseada em referência, que ignora informações valiosas do *input* de origem. Na tradução automática (MT), progressos recentes demonstraram que métricas neurais que incorporam o texto de origem alcançam uma correlação mais forte com os julgamentos humanos. Estender esta ideia para o ST, no entanto, não é trivial porque a origem é áudio em vez de texto, e transcrições ou alinhamentos confiáveis entre a origem e as referências estão frequentemente indisponíveis. Neste trabalho, realizamos o primeiro estudo sistemático de métricas conscientes da origem para ST, com um foco particular nas condições operacionais do mundo real, onde as transcrições de origem não estão disponíveis. Exploramos duas estratégias complementares para gerar representações textais do áudio de entrada: transcrições de reconhecimento automático de fala (ASR) e retro-traduções da tradução de referência, e introduzimos um novo algoritmo de re-segmentação cruzada em duas etapas para abordar o desalinhamento entre fontes sintéticas e traduções de referência. As nossas experiências, realizadas em dois benchmarks de ST abrangendo 79 pares de idiomas e seis sistemas de ST com arquiteturas e níveis de desempenho diversos, mostram que as transcrições de ASR constituem uma fonte sintética mais confiável do que as retro-traduções quando a taxa de erro de palavra é inferior a 20%, enquanto as retro-traduções representam sempre uma alternativa computacionalmente mais económica, mas ainda assim eficaz. Além disso, o nosso algoritmo de re-segmentação cruzada permite o uso robusto de métricas de MT conscientes da origem na avaliação de ST, abrindo caminho para metodologias de avaliação de tradução de fala mais precisas e fundamentadas.

English

Automatic evaluation of speech-to-text translation (ST) systems is typically performed by comparing translation hypotheses with one or more reference translations. While effective to some extent, this approach inherits the limitation of reference-based evaluation that ignores valuable information from the source input. In machine translation (MT), recent progress has shown that neural metrics incorporating the source text achieve stronger correlation with human judgments. Extending this idea to ST, however, is not trivial because the source is audio rather than text, and reliable transcripts or alignments between source and references are often unavailable. In this work, we conduct the first systematic study of source-aware metrics for ST, with a particular focus on real-world operating conditions where source transcripts are not available. We explore two complementary strategies for generating textual proxies of the input audio, automatic speech recognition (ASR) transcripts, and back-translations of the reference translation, and introduce a novel two-step cross-lingual re-segmentation algorithm to address the alignment mismatch between synthetic sources and reference translations. Our experiments, carried out on two ST benchmarks covering 79 language pairs and six ST systems with diverse architectures and performance levels, show that ASR transcripts constitute a more reliable synthetic source than back-translations when word error rate is below 20%, while back-translations always represent a computationally cheaper but still effective alternative. Furthermore, our cross-lingual re-segmentation algorithm enables robust use of source-aware MT metrics in ST evaluation, paving the way toward more accurate and principled evaluation methodologies for speech translation.

Como Avaliar a Tradução de Fala com Métricos de MT Neural Conscientes da Fonte

How to Evaluate Speech Translation with Source-Aware Neural MT Metrics

Resumo

Support