ChatPaper.aiChatPaper

음원 인식 신경망 기계번역 지표를 활용한 음성 번역 평가 방법

How to Evaluate Speech Translation with Source-Aware Neural MT Metrics

November 5, 2025
저자: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI

초록

음성-텍스트 번역(ST) 시스템의 자동 평가는 일반적으로 번역 가설을 하나 이상의 참조 번역과 비교하여 수행됩니다. 어느 정도 효과적이지만, 이 접근 방식은 원천 입력의 가치 있는 정보를 무시하는 참조 기반 평가의 한계를 그대로 물려받습니다. 기계 번역(MT)에서는 원천 텍스트를 통합한 신경망 기반 평가 척도가 인간 판단과 더 강한 상관 관계를 달성한다는 최근의 진전이 있었습니다. 그러나 이러한 아이디어를 ST로 확장하는 것은 원천이 텍스트가 아닌 오디오이며, 원천과 참조 간의 신뢰할 수 있는 기록이나 정렬이 종종 불가능하기 때문에 간단하지 않습니다. 본 연구에서는 원천 기록을 사용할 수 없는 실제 운영 조건에 특히 초점을 맞춰 ST를 위한 원천 인식 평가 척도의 첫 번째 체계적인 연구를 수행합니다. 우리는 입력 오디오의 텍스트적 대용물을 생성하기 위해 상호 보완적인 두 가지 전략, 즉 자동 음성 인식(ASR) 기록과 참조 번역의 역번역을 탐구하고, 합성 원천과 참조 번역 간의 정렬 불일치를 해결하기 위한 새로운 2단계 교차 언어 재분할 알고리즘을 소개합니다. 79개 언어 쌍을 아우르는 두 개의 ST 벤치마크와 다양한 아키텍처 및 성능 수준을 가진 6개의 ST 시스템에서 수행된 우리의 실험 결과, 단어 오류율이 20% 미만일 때 역번역보다 ASR 기록이 더 신뢰할 수 있는 합성 원천으로 구성되며, 역번역은 항상 계산 비용이 더 저렴하면서도 여전히 효과적인 대안임을 보여줍니다. 더 나아가, 우리의 교차 언어 재분할 알고리즘은 ST 평가에서 원천 인식 MT 평가 척도의 강건한 사용을 가능하게 하여 음성 번역을 위한 더 정확하고 체계적인 평가 방법론으로 가는 길을 열어줍니다.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically performed by comparing translation hypotheses with one or more reference translations. While effective to some extent, this approach inherits the limitation of reference-based evaluation that ignores valuable information from the source input. In machine translation (MT), recent progress has shown that neural metrics incorporating the source text achieve stronger correlation with human judgments. Extending this idea to ST, however, is not trivial because the source is audio rather than text, and reliable transcripts or alignments between source and references are often unavailable. In this work, we conduct the first systematic study of source-aware metrics for ST, with a particular focus on real-world operating conditions where source transcripts are not available. We explore two complementary strategies for generating textual proxies of the input audio, automatic speech recognition (ASR) transcripts, and back-translations of the reference translation, and introduce a novel two-step cross-lingual re-segmentation algorithm to address the alignment mismatch between synthetic sources and reference translations. Our experiments, carried out on two ST benchmarks covering 79 language pairs and six ST systems with diverse architectures and performance levels, show that ASR transcripts constitute a more reliable synthetic source than back-translations when word error rate is below 20%, while back-translations always represent a computationally cheaper but still effective alternative. Furthermore, our cross-lingual re-segmentation algorithm enables robust use of source-aware MT metrics in ST evaluation, paving the way toward more accurate and principled evaluation methodologies for speech translation.
PDF32December 2, 2025