Denoising LM: Llevando al límite los modelos de corrección de errores para el reconocimiento del habla

Resumen

Los modelos de lenguaje (LM, por sus siglas en inglés) se han utilizado durante mucho tiempo para mejorar los resultados de los sistemas de reconocimiento automático del habla (ASR, por sus siglas en inglés), pero no son conscientes de los errores que cometen estos sistemas. Los modelos de corrección de errores están diseñados para corregir los errores del ASR; sin embargo, han mostrado pocas mejoras en comparación con los LM tradicionales, principalmente debido a la falta de datos de entrenamiento supervisados. En este artículo, presentamos el Modelo de Lenguaje de Desruido (DLM, por sus siglas en inglés), que es un modelo de corrección de errores escalado entrenado con grandes cantidades de datos sintéticos, superando significativamente intentos previos y logrando un nuevo estado del arte en el rendimiento del ASR. Utilizamos sistemas de texto a voz (TTS, por sus siglas en inglés) para sintetizar audio, que luego se introduce en un sistema ASR para generar hipótesis ruidosas, las cuales se emparejan con los textos originales para entrenar el DLM. El DLM tiene varios componentes clave: (i) modelo y datos escalados; (ii) uso de sistemas TTS con múltiples hablantes; (iii) combinación de múltiples estrategias de aumento de ruido; y (iv) nuevas técnicas de decodificación. Con un ASR Transformer-CTC, el DLM logra una tasa de error por palabra (WER, por sus siglas en inglés) del 1.5% en test-clean y del 3.3% en test-other en Librispeech, que, hasta donde sabemos, son los mejores resultados reportados en el escenario donde no se utilizan datos de audio externos e incluso igualan a los métodos autosupervisados que sí los utilizan. Además, un único DLM es aplicable a diferentes sistemas ASR, superando ampliamente el rendimiento del rescoring convencional basado en búsqueda por haz con LM. Estos resultados indican que los modelos de corrección de errores, cuando se investigan adecuadamente, tienen el potencial de reemplazar a los LM tradicionales, abriendo la puerta a un nuevo nivel de precisión en los sistemas ASR.

English

Language models (LMs) have long been used to improve results of automatic speech recognition (ASR) systems, but they are unaware of the errors that ASR systems make. Error correction models are designed to fix ASR errors, however, they showed little improvement over traditional LMs mainly due to the lack of supervised training data. In this paper, we present Denoising LM (DLM), which is a scaled error correction model trained with vast amounts of synthetic data, significantly exceeding prior attempts meanwhile achieving new state-of-the-art ASR performance. We use text-to-speech (TTS) systems to synthesize audio, which is fed into an ASR system to produce noisy hypotheses, which are then paired with the original texts to train the DLM. DLM has several key ingredients: (i) up-scaled model and data; (ii) usage of multi-speaker TTS systems; (iii) combination of multiple noise augmentation strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on test-other on Librispeech, which to our knowledge are the best reported numbers in the setting where no external audio data are used and even match self-supervised methods which use external audio data. Furthermore, a single DLM is applicable to different ASRs, and greatly surpassing the performance of conventional LM based beam-search rescoring. These results indicate that properly investigated error correction models have the potential to replace conventional LMs, holding the key to a new level of accuracy in ASR systems.

Denoising LM: Llevando al límite los modelos de corrección de errores para el reconocimiento del habla

Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

Resumen

Support