노이즈 제거 언어 모델: 음성 인식을 위한 오류 수정 모델의 한계 돌파
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition
May 24, 2024
저자: Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly
cs.AI
초록
언어 모델(LM)은 오랫동안 자동 음성 인식(ASR) 시스템의 성능을 개선하기 위해 사용되어 왔지만, 이들은 ASR 시스템이 발생시키는 오류를 인식하지 못합니다. 오류 수정 모델은 ASR 오류를 수정하도록 설계되었지만, 지도 학습 데이터의 부족으로 인해 기존 LM 대비 큰 개선을 보여주지 못했습니다. 본 논문에서는 대량의 합성 데이터로 학습된 확장된 오류 수정 모델인 Denoising LM(DLM)을 제안하며, 이는 기존 시도를 크게 뛰어넘으면서 새로운 최첨단 ASR 성능을 달성합니다. 우리는 텍스트-투-스피치(TTS) 시스템을 사용하여 오디오를 합성하고, 이를 ASR 시스템에 입력하여 잡음이 포함된 가설을 생성한 후, 이를 원본 텍스트와 짝지어 DLM을 학습시킵니다. DLM은 다음과 같은 주요 요소를 포함합니다: (i) 확장된 모델과 데이터; (ii) 다중 화자 TTS 시스템의 활용; (iii) 다양한 잡음 증강 전략의 조합; (iv) 새로운 디코딩 기술. Transformer-CTC ASR과 함께 사용된 DLM은 Librispeech의 test-clean에서 1.5%의 단어 오류율(WER), test-other에서 3.3%의 WER을 달성하며, 이는 우리가 아는 한 외부 오디오 데이터를 사용하지 않는 설정에서 보고된 최고 수치이며, 외부 오디오 데이터를 사용하는 자기 지도 학습 방법과도 견줄 만한 성능입니다. 더욱이, 단일 DLM은 다양한 ASR에 적용 가능하며, 기존 LM 기반 빔 서치 재점수화의 성능을 크게 능가합니다. 이러한 결과는 적절히 연구된 오류 수정 모델이 기존 LM을 대체할 잠재력을 가지고 있으며, ASR 시스템의 정확도를 새로운 수준으로 끌어올릴 수 있는 열쇠를 쥐고 있음을 시사합니다.
English
Language models (LMs) have long been used to improve results of automatic
speech recognition (ASR) systems, but they are unaware of the errors that ASR
systems make. Error correction models are designed to fix ASR errors, however,
they showed little improvement over traditional LMs mainly due to the lack of
supervised training data. In this paper, we present Denoising LM (DLM), which
is a scaled error correction model trained with vast amounts of
synthetic data, significantly exceeding prior attempts meanwhile achieving new
state-of-the-art ASR performance. We use text-to-speech (TTS) systems to
synthesize audio, which is fed into an ASR system to produce noisy hypotheses,
which are then paired with the original texts to train the DLM. DLM has several
key ingredients: (i) up-scaled model and data; (ii) usage of
multi-speaker TTS systems; (iii) combination of multiple noise augmentation
strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM
achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on
test-other on Librispeech, which to our knowledge are the best
reported numbers in the setting where no external audio data are used and even
match self-supervised methods which use external audio data. Furthermore, a
single DLM is applicable to different ASRs, and greatly surpassing the
performance of conventional LM based beam-search rescoring. These results
indicate that properly investigated error correction models have the potential
to replace conventional LMs, holding the key to a new level of accuracy in ASR
systems.Summary
AI-Generated Summary