Улучшение ЯМ: Расширение Границ Моделей Коррекции Ошибок для Распознавания Речи
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition
May 24, 2024
Авторы: Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly
cs.AI
Аннотация
Языковые модели (LMs) давно используются для улучшения результатов систем автоматического распознавания речи (ASR), но они не знают ошибках, которые допускают системы ASR. Модели исправления ошибок предназначены для исправления ошибок ASR, однако они показали незначительное улучшение по сравнению с традиционными LMs в основном из-за отсутствия надзорных данных для обучения. В данной статье мы представляем Денойзинг LM (DLM), который является масштабной моделью исправления ошибок, обученной на огромных объемах синтетических данных, значительно превосходящих предыдущие попытки и в то же время достигающей нового state-of-the-art производительности ASR. Мы используем системы текст в речь (TTS) для синтеза аудио, которое подается на систему ASR для создания шумных гипотез, которые затем сопоставляются с оригинальными текстами для обучения DLM. DLM имеет несколько ключевых компонентов: (i) масштабная модель и данные; (ii) использование многоголосых систем TTS; (iii) комбинация нескольких стратегий увеличения шума; и (iv) новые техники декодирования. С помощью Transformer-CTC ASR, DLM достигает 1.5% словесной оценки ошибок (WER) на test-clean и 3.3% WER на test-other на Librispeech, которые, насколько нам известно, являются лучшими отчетными показателями в условиях, когда не используются внешние аудиоданные, и даже соответствуют методам самообучения, использующим внешние аудиоданные. Более того, один DLM применим к различным ASR и значительно превосходит производительность конвенционального LM на основе переоценки поиска лучшего пути. Эти результаты указывают на то, что правильно исследованные модели исправления ошибок имеют потенциал заменить традиционные LMs, имея ключ к новому уровню точности в системах ASR.
English
Language models (LMs) have long been used to improve results of automatic
speech recognition (ASR) systems, but they are unaware of the errors that ASR
systems make. Error correction models are designed to fix ASR errors, however,
they showed little improvement over traditional LMs mainly due to the lack of
supervised training data. In this paper, we present Denoising LM (DLM), which
is a scaled error correction model trained with vast amounts of
synthetic data, significantly exceeding prior attempts meanwhile achieving new
state-of-the-art ASR performance. We use text-to-speech (TTS) systems to
synthesize audio, which is fed into an ASR system to produce noisy hypotheses,
which are then paired with the original texts to train the DLM. DLM has several
key ingredients: (i) up-scaled model and data; (ii) usage of
multi-speaker TTS systems; (iii) combination of multiple noise augmentation
strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM
achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on
test-other on Librispeech, which to our knowledge are the best
reported numbers in the setting where no external audio data are used and even
match self-supervised methods which use external audio data. Furthermore, a
single DLM is applicable to different ASRs, and greatly surpassing the
performance of conventional LM based beam-search rescoring. These results
indicate that properly investigated error correction models have the potential
to replace conventional LMs, holding the key to a new level of accuracy in ASR
systems.Summary
AI-Generated Summary