대규모 언어 모델을 활용한 종단간 음성 인식 문맥화
End-to-End Speech Recognition Contextualization with Large Language Models
September 19, 2023
저자: Egor Lakomkin, Chunyang Wu, Yassir Fathullah, Ozlem Kalinli, Michael L. Seltzer, Christian Fuegen
cs.AI
초록
최근 대규모 언어 모델(LLMs)은 뛰어난 성능과 일반화 능력으로 인해 연구 커뮤니티로부터 상당한 주목을 받고 있다. 본 논문에서는 LLMs를 통합하여 음성 인식 모델을 상황에 맞게 조정하는 새로운 방법을 소개한다. 우리의 접근 방식은 사전 학습된 LLM을 기반으로 음성 인식을 혼합 모드 언어 모델링 작업으로 재구성한다. 시스템이 디코더 전용 방식으로 전사를 완성하도록 학습시키기 위해 오디오 특징과 선택적인 텍스트 토큰을 제공한다. 결과적으로, 시스템은 학습 중에 비정형 상황 정보를 활용하는 방법을 암묵적으로 학습하도록 유도된다. 실험 결과, 추가적인 텍스트 문맥이 제공될 때 6%의 WER(Word Error Rate) 감소로 성능이 크게 향상됨을 보여준다. 또한, 본 방법은 25배 이상 큰 음성 데이터셋으로 학습된 상황별 RNN-T 기준 시스템과 비교하여 전반적으로 7.5% WER, 희귀 단어에서는 17% WER 개선을 달성하며 경쟁력 있는 성능을 보인다. 전반적으로, 어댑터를 통해 소수의 학습 가능한 매개변수만 추가함으로써 사전 학습된 LLM의 상황별 음성 인식 능력을 해제하면서도 텍스트 전용 입력 기능을 유지할 수 있음을 입증한다.
English
In recent years, Large Language Models (LLMs) have garnered significant
attention from the research community due to their exceptional performance and
generalization capabilities. In this paper, we introduce a novel method for
contextualizing speech recognition models incorporating LLMs. Our approach
casts speech recognition as a mixed-modal language modeling task based on a
pretrained LLM. We provide audio features, along with optional text tokens for
context, to train the system to complete transcriptions in a decoder-only
fashion. As a result, the system is implicitly incentivized to learn how to
leverage unstructured contextual information during training. Our empirical
results demonstrate a significant improvement in performance, with a 6% WER
reduction when additional textual context is provided. Moreover, we find that
our method performs competitively and improve by 7.5% WER overall and 17% WER
on rare words against a baseline contextualized RNN-T system that has been
trained on more than twenty five times larger speech dataset. Overall, we
demonstrate that by only adding a handful number of trainable parameters via
adapters, we can unlock contextualized speech recognition capability for the
pretrained LLM while keeping the same text-only input functionality.