Un Marco de Autorrefinamiento para Mejorar el Reconocimiento Automático del Habla Utilizando Datos Sintetizados con TTS
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data
June 10, 2025
Autores: Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee
cs.AI
Resumen
Proponemos un marco de autorrefinamiento que mejora el rendimiento del reconocimiento automático del habla (ASR) utilizando únicamente conjuntos de datos no etiquetados. El proceso comienza con un modelo ASR existente que genera pseudoetiquetas sobre habla no anotada, las cuales se utilizan para entrenar un sistema de texto a voz (TTS) de alta fidelidad. Luego, los pares de habla sintetizada y texto se incorporan en el sistema ASR original, completando así el ciclo cerrado de automejora. Demostramos la efectividad del marco en habla mandarín taiwanés. Aprovechando 6,000 horas de habla no etiquetada, una cantidad moderada de datos de texto y contenido sintético generado por modelos de inteligencia artificial, adaptamos Whisper-large-v2 en un modelo especializado, Twister. Twister reduce las tasas de error hasta en un 20% en mandarín y en un 50% en benchmarks de cambio de código mandarín-inglés en comparación con Whisper. Los resultados destacan este marco como una alternativa convincente a los enfoques de autodistilación con pseudoetiquetas y proporcionan una vía práctica para mejorar el rendimiento del ASR en entornos de bajos recursos o específicos de dominio.
English
We propose a self-refining framework that enhances ASR performance with only
unlabeled datasets. The process starts with an existing ASR model generating
pseudo-labels on unannotated speech, which are then used to train a
high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs
are bootstrapped into the original ASR system, completing the closed-loop
self-improvement cycle. We demonstrated the effectiveness of the framework on
Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a
moderate amount of text data, and synthetic content from the AI models, we
adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error
rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching
benchmarks compared to Whisper. Results highlight the framework as a compelling
alternative to pseudo-labeling self-distillation approaches and provides a
practical pathway for improving ASR performance in low-resource or
domain-specific settings.