De Dezenas de Horas para Dezenas de Milhares: Escalonando a Tradução Reversa para Reconhecimento de Fala
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition
May 22, 2025
Autores: Tianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng
cs.AI
Resumo
Os recentes avanços no Reconhecimento Automático de Fala (ASR) têm sido amplamente impulsionados por grandes corpora de fala. No entanto, estender a cobertura para diversos idiomas com recursos limitados continua sendo um desafio formidável. Este artigo introduz o Speech Back-Translation, um pipeline escalável que melhora modelos de ASR multilíngues convertendo grandes corpora de texto em fala sintética por meio de modelos de texto-para-fala (TTS) prontos para uso. Demonstramos que apenas dezenas de horas de fala transcrita real podem treinar efetivamente modelos TTS para gerar fala sintética em volumes centenas de vezes maiores que o original, mantendo alta qualidade. Para avaliar a qualidade da fala sintética, desenvolvemos uma estrutura de avaliação baseada em inteligibilidade e estabelecemos limites claros para quando os dados sintéticos beneficiam o treinamento de ASR. Usando o Speech Back-Translation, geramos mais de 500.000 horas de fala sintética em dez idiomas e continuamos o pré-treinamento do Whisper-large-v3, alcançando reduções médias de erro de transcrição superiores a 30%. Esses resultados destacam a escalabilidade e a eficácia do Speech Back-Translation para aprimorar sistemas de ASR multilíngues.
English
Recent advances in Automatic Speech Recognition (ASR) have been largely
fueled by massive speech corpora. However, extending coverage to diverse
languages with limited resources remains a formidable challenge. This paper
introduces Speech Back-Translation, a scalable pipeline that improves
multilingual ASR models by converting large-scale text corpora into synthetic
speech via off-the-shelf text-to-speech (TTS) models. We demonstrate that just
tens of hours of real transcribed speech can effectively train TTS models to
generate synthetic speech at hundreds of times the original volume while
maintaining high quality. To evaluate synthetic speech quality, we develop an
intelligibility-based assessment framework and establish clear thresholds for
when synthetic data benefits ASR training. Using Speech Back-Translation, we
generate more than 500,000 hours of synthetic speech in ten languages and
continue pre-training Whisper-large-v3, achieving average transcription error
reductions of over 30\%. These results highlight the scalability and
effectiveness of Speech Back-Translation for enhancing multilingual ASR
systems.