ChatPaper.aiChatPaper

De Dezenas de Horas para Dezenas de Milhares: Escalonando a Tradução Reversa para Reconhecimento de Fala

From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition

May 22, 2025
Autores: Tianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng
cs.AI

Resumo

Os recentes avanços no Reconhecimento Automático de Fala (ASR) têm sido amplamente impulsionados por grandes corpora de fala. No entanto, estender a cobertura para diversos idiomas com recursos limitados continua sendo um desafio formidável. Este artigo introduz o Speech Back-Translation, um pipeline escalável que melhora modelos de ASR multilíngues convertendo grandes corpora de texto em fala sintética por meio de modelos de texto-para-fala (TTS) prontos para uso. Demonstramos que apenas dezenas de horas de fala transcrita real podem treinar efetivamente modelos TTS para gerar fala sintética em volumes centenas de vezes maiores que o original, mantendo alta qualidade. Para avaliar a qualidade da fala sintética, desenvolvemos uma estrutura de avaliação baseada em inteligibilidade e estabelecemos limites claros para quando os dados sintéticos beneficiam o treinamento de ASR. Usando o Speech Back-Translation, geramos mais de 500.000 horas de fala sintética em dez idiomas e continuamos o pré-treinamento do Whisper-large-v3, alcançando reduções médias de erro de transcrição superiores a 30%. Esses resultados destacam a escalabilidade e a eficácia do Speech Back-Translation para aprimorar sistemas de ASR multilíngues.
English
Recent advances in Automatic Speech Recognition (ASR) have been largely fueled by massive speech corpora. However, extending coverage to diverse languages with limited resources remains a formidable challenge. This paper introduces Speech Back-Translation, a scalable pipeline that improves multilingual ASR models by converting large-scale text corpora into synthetic speech via off-the-shelf text-to-speech (TTS) models. We demonstrate that just tens of hours of real transcribed speech can effectively train TTS models to generate synthetic speech at hundreds of times the original volume while maintaining high quality. To evaluate synthetic speech quality, we develop an intelligibility-based assessment framework and establish clear thresholds for when synthetic data benefits ASR training. Using Speech Back-Translation, we generate more than 500,000 hours of synthetic speech in ten languages and continue pre-training Whisper-large-v3, achieving average transcription error reductions of over 30\%. These results highlight the scalability and effectiveness of Speech Back-Translation for enhancing multilingual ASR systems.
PDF92December 16, 2025