Denoising LM: De Grenzen Verleggen van Foutcorrectiemodellen voor Spraakherkenning

Samenvatting

Taalmmodellen (LMs) worden al lang gebruikt om de resultaten van automatische spraakherkenning (ASR) systemen te verbeteren, maar ze zijn zich niet bewust van de fouten die ASR-systemen maken. Foutcorrectiemodellen zijn ontworpen om ASR-fouten te corrigeren, maar ze lieten weinig verbetering zien ten opzichte van traditionele LMs, voornamelijk door het gebrek aan begeleide trainingsdata. In dit artikel presenteren we Denoising LM (DLM), een opgeschaald foutcorrectiemodel getraind met enorme hoeveelheden synthetische data, dat eerdere pogingen aanzienlijk overtreft en tegelijkertijd nieuwe state-of-the-art ASR-prestaties bereikt. We gebruiken text-to-speech (TTS) systemen om audio te synthetiseren, die vervolgens in een ASR-systeem wordt gevoerd om ruwe hypotheses te produceren, die dan worden gekoppeld aan de originele teksten om de DLM te trainen. DLM heeft verschillende belangrijke ingrediënten: (i) opgeschaald model en data; (ii) gebruik van multi-speaker TTS-systemen; (iii) combinatie van meerdere ruis-augmentatiestrategieën; en (iv) nieuwe decodeertechnieken. Met een Transformer-CTC ASR bereikt DLM een woordfoutpercentage (WER) van 1,5% op test-clean en 3,3% WER op test-other op Librispeech, wat voor zover wij weten de beste gerapporteerde resultaten zijn in de setting waar geen externe audiodata worden gebruikt en zelfs overeenkomen met zelf-begeleide methoden die externe audiodata gebruiken. Bovendien is een enkele DLM toepasbaar op verschillende ASRs en overtreft het de prestaties van conventionele LM-gebaseerde beam-search herscoren aanzienlijk. Deze resultaten geven aan dat goed onderzochte foutcorrectiemodellen het potentieel hebben om conventionele LMs te vervangen, wat de sleutel vormt naar een nieuw niveau van nauwkeurigheid in ASR-systemen.

English

Language models (LMs) have long been used to improve results of automatic speech recognition (ASR) systems, but they are unaware of the errors that ASR systems make. Error correction models are designed to fix ASR errors, however, they showed little improvement over traditional LMs mainly due to the lack of supervised training data. In this paper, we present Denoising LM (DLM), which is a scaled error correction model trained with vast amounts of synthetic data, significantly exceeding prior attempts meanwhile achieving new state-of-the-art ASR performance. We use text-to-speech (TTS) systems to synthesize audio, which is fed into an ASR system to produce noisy hypotheses, which are then paired with the original texts to train the DLM. DLM has several key ingredients: (i) up-scaled model and data; (ii) usage of multi-speaker TTS systems; (iii) combination of multiple noise augmentation strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on test-other on Librispeech, which to our knowledge are the best reported numbers in the setting where no external audio data are used and even match self-supervised methods which use external audio data. Furthermore, a single DLM is applicable to different ASRs, and greatly surpassing the performance of conventional LM based beam-search rescoring. These results indicate that properly investigated error correction models have the potential to replace conventional LMs, holding the key to a new level of accuracy in ASR systems.

Denoising LM: De Grenzen Verleggen van Foutcorrectiemodellen voor Spraakherkenning

Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

Samenvatting

Support