ChatPaper.aiChatPaper

Comment évaluer la traduction de parole avec des métriques neuronales de TA conscientes de la source

How to Evaluate Speech Translation with Source-Aware Neural MT Metrics

November 5, 2025
papers.authors: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI

papers.abstract

L'évaluation automatique des systèmes de traduction parole-texte (ST) est généralement réalisée en comparant les hypothèses de traduction avec une ou plusieurs traductions de référence. Bien qu'efficace dans une certaine mesure, cette approche hérite de la limitation de l'évaluation basée sur des références, qui ignore les informations précieuses provenant de l'entrée source. En traduction automatique (MT), les progrès récents ont montré que les métriques neuronales intégrant le texte source obtiennent une meilleure corrélation avec les jugements humains. Étendre cette idée à la ST, cependant, n'est pas trivial car la source est audio plutôt que textuelle, et des transcriptions fiables ou des alignements entre la source et les références sont souvent indisponibles. Dans ce travail, nous menons la première étude systématique sur les métriques tenant compte de la source pour la ST, en nous concentrant particulièrement sur les conditions opérationnelles réelles où les transcriptions sources ne sont pas disponibles. Nous explorons deux stratégies complémentaires pour générer des substituts textuels de l'audio d'entrée : les transcriptions par reconnaissance automatique de la parole (ASR) et les rétro-traductions de la traduction de référence. Nous introduisons également un nouvel algorithme de re-segmentation cross-lingue en deux étapes pour résoudre le problème de désalignement entre les sources synthétiques et les traductions de référence. Nos expériences, menées sur deux benchmarks de ST couvrant 79 paires de langues et six systèmes de ST aux architectures et niveaux de performance divers, montrent que les transcriptions ASR constituent une source synthétique plus fiable que les rétro-traductions lorsque le taux d'erreur sur les mots est inférieur à 20 %, tandis que les rétro-traductions représentent toujours une alternative moins coûteuse en calcul mais toujours efficace. De plus, notre algorithme de re-segmentation cross-lingue permet une utilisation robuste des métriques MT sensibles à la source dans l'évaluation de la ST, ouvrant la voie vers des méthodologies d'évaluation de la traduction de la parole plus précises et plus fondées.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically performed by comparing translation hypotheses with one or more reference translations. While effective to some extent, this approach inherits the limitation of reference-based evaluation that ignores valuable information from the source input. In machine translation (MT), recent progress has shown that neural metrics incorporating the source text achieve stronger correlation with human judgments. Extending this idea to ST, however, is not trivial because the source is audio rather than text, and reliable transcripts or alignments between source and references are often unavailable. In this work, we conduct the first systematic study of source-aware metrics for ST, with a particular focus on real-world operating conditions where source transcripts are not available. We explore two complementary strategies for generating textual proxies of the input audio, automatic speech recognition (ASR) transcripts, and back-translations of the reference translation, and introduce a novel two-step cross-lingual re-segmentation algorithm to address the alignment mismatch between synthetic sources and reference translations. Our experiments, carried out on two ST benchmarks covering 79 language pairs and six ST systems with diverse architectures and performance levels, show that ASR transcripts constitute a more reliable synthetic source than back-translations when word error rate is below 20%, while back-translations always represent a computationally cheaper but still effective alternative. Furthermore, our cross-lingual re-segmentation algorithm enables robust use of source-aware MT metrics in ST evaluation, paving the way toward more accurate and principled evaluation methodologies for speech translation.
PDF32December 2, 2025