От десятков часов до десятков тысяч: масштабирование обратного перевода для распознавания речи
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition
May 22, 2025
Авторы: Tianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng
cs.AI
Аннотация
Последние достижения в области автоматического распознавания речи (ASR) во многом обусловлены использованием обширных речевых корпусов. Однако расширение охвата на разнообразные языки с ограниченными ресурсами остается серьезной проблемой. В данной статье представлен метод Speech Back-Translation, масштабируемый подход, который улучшает многоязычные модели ASR путем преобразования крупномасштабных текстовых корпусов в синтетическую речь с использованием готовых моделей синтеза речи (TTS). Мы демонстрируем, что всего несколько десятков часов реальной транскрибированной речи могут эффективно обучить модели TTS для генерации синтетической речи в сотни раз большего объема при сохранении высокого качества. Для оценки качества синтетической речи мы разработали основанную на разборчивости методику оценки и установили четкие пороговые значения, при которых синтетические данные приносят пользу обучению ASR. Используя Speech Back-Translation, мы сгенерировали более 500 000 часов синтетической речи на десяти языках и продолжили предварительное обучение модели Whisper-large-v3, достигнув среднего снижения ошибок транскрипции более чем на 30%. Эти результаты подчеркивают масштабируемость и эффективность метода Speech Back-Translation для улучшения многоязычных систем ASR.
English
Recent advances in Automatic Speech Recognition (ASR) have been largely
fueled by massive speech corpora. However, extending coverage to diverse
languages with limited resources remains a formidable challenge. This paper
introduces Speech Back-Translation, a scalable pipeline that improves
multilingual ASR models by converting large-scale text corpora into synthetic
speech via off-the-shelf text-to-speech (TTS) models. We demonstrate that just
tens of hours of real transcribed speech can effectively train TTS models to
generate synthetic speech at hundreds of times the original volume while
maintaining high quality. To evaluate synthetic speech quality, we develop an
intelligibility-based assessment framework and establish clear thresholds for
when synthetic data benefits ASR training. Using Speech Back-Translation, we
generate more than 500,000 hours of synthetic speech in ten languages and
continue pre-training Whisper-large-v3, achieving average transcription error
reductions of over 30\%. These results highlight the scalability and
effectiveness of Speech Back-Translation for enhancing multilingual ASR
systems.Summary
AI-Generated Summary