Самооптимизирующаяся структура для улучшения ASR с использованием данных, синтезированных TTS
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data
June 10, 2025
Авторы: Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee
cs.AI
Аннотация
Мы предлагаем самоуточняющуюся структуру, которая повышает производительность систем автоматического распознавания речи (ASR) с использованием только немаркированных наборов данных. Процесс начинается с генерации псевдометок существующей моделью ASR на немаркированной речи, которые затем используются для обучения высококачественной системы синтеза речи (TTS). Далее синтезированные пары "речь-текст" интегрируются в исходную систему ASR, завершая замкнутый цикл самоулучшения. Мы продемонстрировали эффективность данной структуры на примере тайваньского варианта мандаринского языка. Используя 6000 часов немаркированной речи, умеренное количество текстовых данных и синтетический контент, созданный моделями ИИ, мы адаптировали модель Whisper-large-v2 в специализированную модель Twister. Twister снижает уровень ошибок до 20% на мандаринском языке и до 50% на бенчмарках с переключением кода между мандаринским и английским языками по сравнению с Whisper. Результаты подчеркивают, что данная структура представляет собой убедительную альтернативу подходам самоуточнения через псевдометки и предлагает практический путь для улучшения производительности ASR в условиях ограниченных ресурсов или специфических доменов.
English
We propose a self-refining framework that enhances ASR performance with only
unlabeled datasets. The process starts with an existing ASR model generating
pseudo-labels on unannotated speech, which are then used to train a
high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs
are bootstrapped into the original ASR system, completing the closed-loop
self-improvement cycle. We demonstrated the effectiveness of the framework on
Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a
moderate amount of text data, and synthetic content from the AI models, we
adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error
rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching
benchmarks compared to Whisper. Results highlight the framework as a compelling
alternative to pseudo-labeling self-distillation approaches and provides a
practical pathway for improving ASR performance in low-resource or
domain-specific settings.