Как оценить перевод речи с помощью нейросетевых метрик, учитывающих исходный текст
How to Evaluate Speech Translation with Source-Aware Neural MT Metrics
November 5, 2025
Авторы: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli
cs.AI
Аннотация
Автоматическая оценка систем перевода речи в текст (ST) обычно выполняется путем сравнения гипотез перевода с одним или несколькими эталонными переводами. Хотя этот подход в определенной степени эффективен, он наследует ограничение оценки на основе эталонов, игнорируя ценную информацию из исходного входного сигнала. В машинном переводе (MT) недавний прогресс показал, что нейросетевые метрики, учитывающие исходный текст, достигают более сильной корреляции с человеческими оценками. Однако распространение этой идеи на ST нетривиально, поскольку источником является аудио, а не текст, а надежные расшифровки или выравнивания между источником и эталонами часто недоступны. В данной работе мы проводим первое систематическое исследование метрик, учитывающих источник, для ST, с особым акцентом на реальные условия эксплуатации, когда расшифровки исходной речи недоступны. Мы исследуем две взаимодополняющие стратегии генерации текстовых прокси входного аудио: расшифровки автоматического распознавания речи (ASR) и обратные переводы эталонного перевода, а также представляем новый двухэтапный кросс-лингвальный алгоритм повторной сегментации для решения проблемы несоответствия выравнивания между синтетическими источниками и эталонными переводами. Наши эксперименты, проведенные на двух тестовых наборах для ST, охватывающих 79 языковых пар и шесть ST-систем с различными архитектурами и уровнями производительности, показывают, что расшифровки ASR являются более надежным синтетическим источником, чем обратные переводы, когда процент ошибок по словам ниже 20%, в то время как обратные переводы всегда представляют собой вычислительно менее затратную, но все же эффективную альтернативу. Кроме того, наш алгоритм кросс-лингвальной повторной сегментации позволяет надежно использовать метрики MT, учитывающие источник, при оценке ST, прокладывая путь к более точным и принципиальным методикам оценки перевода речи.
English
Automatic evaluation of speech-to-text translation (ST) systems is typically
performed by comparing translation hypotheses with one or more reference
translations. While effective to some extent, this approach inherits the
limitation of reference-based evaluation that ignores valuable information from
the source input. In machine translation (MT), recent progress has shown that
neural metrics incorporating the source text achieve stronger correlation with
human judgments. Extending this idea to ST, however, is not trivial because the
source is audio rather than text, and reliable transcripts or alignments
between source and references are often unavailable. In this work, we conduct
the first systematic study of source-aware metrics for ST, with a particular
focus on real-world operating conditions where source transcripts are not
available. We explore two complementary strategies for generating textual
proxies of the input audio, automatic speech recognition (ASR) transcripts, and
back-translations of the reference translation, and introduce a novel two-step
cross-lingual re-segmentation algorithm to address the alignment mismatch
between synthetic sources and reference translations. Our experiments, carried
out on two ST benchmarks covering 79 language pairs and six ST systems with
diverse architectures and performance levels, show that ASR transcripts
constitute a more reliable synthetic source than back-translations when word
error rate is below 20%, while back-translations always represent a
computationally cheaper but still effective alternative. Furthermore, our
cross-lingual re-segmentation algorithm enables robust use of source-aware MT
metrics in ST evaluation, paving the way toward more accurate and principled
evaluation methodologies for speech translation.