Un Marco de Autorrefinamiento para Mejorar el Reconocimiento Automático del Habla Utilizando Datos Sintetizados con TTS

Resumen

Proponemos un marco de autorrefinamiento que mejora el rendimiento del reconocimiento automático del habla (ASR) utilizando únicamente conjuntos de datos no etiquetados. El proceso comienza con un modelo ASR existente que genera pseudoetiquetas sobre habla no anotada, las cuales se utilizan para entrenar un sistema de texto a voz (TTS) de alta fidelidad. Luego, los pares de habla sintetizada y texto se incorporan en el sistema ASR original, completando así el ciclo cerrado de automejora. Demostramos la efectividad del marco en habla mandarín taiwanés. Aprovechando 6,000 horas de habla no etiquetada, una cantidad moderada de datos de texto y contenido sintético generado por modelos de inteligencia artificial, adaptamos Whisper-large-v2 en un modelo especializado, Twister. Twister reduce las tasas de error hasta en un 20% en mandarín y en un 50% en benchmarks de cambio de código mandarín-inglés en comparación con Whisper. Los resultados destacan este marco como una alternativa convincente a los enfoques de autodistilación con pseudoetiquetas y proporcionan una vía práctica para mejorar el rendimiento del ASR en entornos de bajos recursos o específicos de dominio.

English

We propose a self-refining framework that enhances ASR performance with only unlabeled datasets. The process starts with an existing ASR model generating pseudo-labels on unannotated speech, which are then used to train a high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs are bootstrapped into the original ASR system, completing the closed-loop self-improvement cycle. We demonstrated the effectiveness of the framework on Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a moderate amount of text data, and synthetic content from the AI models, we adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching benchmarks compared to Whisper. Results highlight the framework as a compelling alternative to pseudo-labeling self-distillation approaches and provides a practical pathway for improving ASR performance in low-resource or domain-specific settings.

Un Marco de Autorrefinamiento para Mejorar el Reconocimiento Automático del Habla Utilizando Datos Sintetizados con TTS

A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

Resumen

Support