Denoising LM: Llevando al límite los modelos de corrección de errores para el reconocimiento del habla
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition
May 24, 2024
Autores: Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly
cs.AI
Resumen
Los modelos de lenguaje (LM, por sus siglas en inglés) se han utilizado durante mucho tiempo para mejorar los resultados de los sistemas de reconocimiento automático del habla (ASR, por sus siglas en inglés), pero no son conscientes de los errores que cometen estos sistemas. Los modelos de corrección de errores están diseñados para corregir los errores del ASR; sin embargo, han mostrado pocas mejoras en comparación con los LM tradicionales, principalmente debido a la falta de datos de entrenamiento supervisados. En este artículo, presentamos el Modelo de Lenguaje de Desruido (DLM, por sus siglas en inglés), que es un modelo de corrección de errores escalado entrenado con grandes cantidades de datos sintéticos, superando significativamente intentos previos y logrando un nuevo estado del arte en el rendimiento del ASR. Utilizamos sistemas de texto a voz (TTS, por sus siglas en inglés) para sintetizar audio, que luego se introduce en un sistema ASR para generar hipótesis ruidosas, las cuales se emparejan con los textos originales para entrenar el DLM. El DLM tiene varios componentes clave: (i) modelo y datos escalados; (ii) uso de sistemas TTS con múltiples hablantes; (iii) combinación de múltiples estrategias de aumento de ruido; y (iv) nuevas técnicas de decodificación. Con un ASR Transformer-CTC, el DLM logra una tasa de error por palabra (WER, por sus siglas en inglés) del 1.5% en test-clean y del 3.3% en test-other en Librispeech, que, hasta donde sabemos, son los mejores resultados reportados en el escenario donde no se utilizan datos de audio externos e incluso igualan a los métodos autosupervisados que sí los utilizan. Además, un único DLM es aplicable a diferentes sistemas ASR, superando ampliamente el rendimiento del rescoring convencional basado en búsqueda por haz con LM. Estos resultados indican que los modelos de corrección de errores, cuando se investigan adecuadamente, tienen el potencial de reemplazar a los LM tradicionales, abriendo la puerta a un nuevo nivel de precisión en los sistemas ASR.
English
Language models (LMs) have long been used to improve results of automatic
speech recognition (ASR) systems, but they are unaware of the errors that ASR
systems make. Error correction models are designed to fix ASR errors, however,
they showed little improvement over traditional LMs mainly due to the lack of
supervised training data. In this paper, we present Denoising LM (DLM), which
is a scaled error correction model trained with vast amounts of
synthetic data, significantly exceeding prior attempts meanwhile achieving new
state-of-the-art ASR performance. We use text-to-speech (TTS) systems to
synthesize audio, which is fed into an ASR system to produce noisy hypotheses,
which are then paired with the original texts to train the DLM. DLM has several
key ingredients: (i) up-scaled model and data; (ii) usage of
multi-speaker TTS systems; (iii) combination of multiple noise augmentation
strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM
achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on
test-other on Librispeech, which to our knowledge are the best
reported numbers in the setting where no external audio data are used and even
match self-supervised methods which use external audio data. Furthermore, a
single DLM is applicable to different ASRs, and greatly surpassing the
performance of conventional LM based beam-search rescoring. These results
indicate that properly investigated error correction models have the potential
to replace conventional LMs, holding the key to a new level of accuracy in ASR
systems.Summary
AI-Generated Summary