Um Framework de Autorrefinamento para Aprimorar o ASR Utilizando Dados Sintetizados por TTS
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data
June 10, 2025
Autores: Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee
cs.AI
Resumo
Propomos uma estrutura de auto-refinamento que melhora o desempenho de ASR utilizando apenas conjuntos de dados não rotulados. O processo começa com um modelo ASR existente gerando pseudo-rótulos em fala não anotada, que são então usados para treinar um sistema de texto-para-fala (TTS) de alta fidelidade. Em seguida, pares de fala e texto sintetizados são integrados ao sistema ASR original, completando o ciclo de auto-melhoria em loop fechado. Demonstramos a eficácia da estrutura em fala de mandarim taiwanês. Utilizando 6.000 horas de fala não rotulada, uma quantidade moderada de dados de texto e conteúdo sintético dos modelos de IA, adaptamos o Whisper-large-v2 para um modelo especializado, o Twister. O Twister reduz as taxas de erro em até 20% no mandarim e 50% em benchmarks de alternância de código mandarim-inglês em comparação com o Whisper. Os resultados destacam a estrutura como uma alternativa atraente às abordagens de auto-distilação com pseudo-rótulos e fornecem um caminho prático para melhorar o desempenho de ASR em cenários de baixos recursos ou específicos de domínio.
English
We propose a self-refining framework that enhances ASR performance with only
unlabeled datasets. The process starts with an existing ASR model generating
pseudo-labels on unannotated speech, which are then used to train a
high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs
are bootstrapped into the original ASR system, completing the closed-loop
self-improvement cycle. We demonstrated the effectiveness of the framework on
Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a
moderate amount of text data, and synthetic content from the AI models, we
adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error
rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching
benchmarks compared to Whisper. Results highlight the framework as a compelling
alternative to pseudo-labeling self-distillation approaches and provides a
practical pathway for improving ASR performance in low-resource or
domain-specific settings.