ChatPaper.aiChatPaper

Un Framework di Auto-Affinamento per Migliorare il Riconoscimento Vocale Utilizzando Dati Sintetizzati con Sintesi Vocale

A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

June 10, 2025
Autori: Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee
cs.AI

Abstract

Proponiamo un framework di auto-affinamento che migliora le prestazioni del riconoscimento automatico del parlato (ASR) utilizzando esclusivamente dataset non etichettati. Il processo inizia con un modello ASR esistente che genera pseudo-etichette su parlato non annotato, che vengono poi utilizzate per addestrare un sistema di sintesi vocale (TTS) ad alta fedeltà. Successivamente, le coppie di testo e parlato sintetizzato vengono integrate nel sistema ASR originale, completando così il ciclo chiuso di auto-miglioramento. Abbiamo dimostrato l'efficacia del framework sul parlato in mandarino taiwanese. Sfruttando 6.000 ore di parlato non etichettato, una quantità moderata di dati testuali e contenuti sintetici generati dai modelli di intelligenza artificiale, abbiamo adattato Whisper-large-v2 in un modello specializzato, Twister. Twister riduce i tassi di errore fino al 20% sul mandarino e al 50% sui benchmark di code-switching mandarino-inglese rispetto a Whisper. I risultati evidenziano il framework come un'alternativa convincente agli approcci di auto-distillazione con pseudo-etichette e forniscono un percorso pratico per migliorare le prestazioni dell'ASR in contesti con risorse limitate o specifici per un dominio.
English
We propose a self-refining framework that enhances ASR performance with only unlabeled datasets. The process starts with an existing ASR model generating pseudo-labels on unannotated speech, which are then used to train a high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs are bootstrapped into the original ASR system, completing the closed-loop self-improvement cycle. We demonstrated the effectiveness of the framework on Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a moderate amount of text data, and synthetic content from the AI models, we adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching benchmarks compared to Whisper. Results highlight the framework as a compelling alternative to pseudo-labeling self-distillation approaches and provides a practical pathway for improving ASR performance in low-resource or domain-specific settings.
PDF62June 16, 2025