음성 인식 능력을 갖춘 대형 언어 모델 프롬프팅
Prompting Large Language Models with Speech Recognition Abilities
July 21, 2023
저자: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Ke Li, Jinxi Guo, Wenhan Xiong, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI
초록
대형 언어 모델(LLM)은 추상적 요약 및 개방형 질문 응답과 같은 다양한 생성 작업을 해결할 수 있는 높은 유연성을 입증해 왔습니다. 본 논문에서는 작은 오디오 인코더를 직접 부착하여 음성 인식을 수행할 수 있도록 LLM의 기능을 확장합니다. 오디오 임베딩 시퀀스를 텍스트 토큰 임베딩 앞에 직접 추가함으로써, LLM을 자동 음성 인식(ASR) 시스템으로 변환할 수 있으며, 텍스트 기반 모델과 동일한 방식으로 사용할 수 있습니다. Multilingual LibriSpeech(MLS)에서의 실험 결과, 오픈소스 LLaMA-7B에 Conformer 인코더를 통합하면 단일 언어 기준선을 18% 능가하며, LLaMA가 주로 영어 텍스트로 훈련되었음에도 불구하고 다국어 음성 인식을 수행할 수 있음을 보여줍니다. 또한, LLM의 원래 기능을 유지하기 위해 훈련 중에 완전히 고정할 수 있는지, 오디오 인코더의 규모를 확장할 수 있는지, 오디오 인코더의 스트라이드를 증가시켜 더 적은 수의 임베딩을 생성할 수 있는지에 대한 제거 연구를 수행했습니다. 이러한 연구 결과, LLM이 고정된 상태에서도 다국어 ASR이 가능하며, 오디오 인코더에서 거의 1초에 가까운 스트라이드를 사용하더라도 가능하다는 것을 보여줌으로써, LLM이 장시간 오디오를 처리할 수 있는 가능성을 열어줍니다.
English
Large language models have proven themselves highly flexible, able to solve a
wide range of generative tasks, such as abstractive summarization and
open-ended question answering. In this paper we extend the capabilities of LLMs
by directly attaching a small audio encoder allowing it to perform speech
recognition. By directly prepending a sequence of audial embeddings to the text
token embeddings, the LLM can be converted to an automatic speech recognition
(ASR) system, and be used in the exact same manner as its textual counterpart.
Experiments on Multilingual LibriSpeech (MLS) show that incorporating a
conformer encoder into the open sourced LLaMA-7B allows it to outperform
monolingual baselines by 18% and perform multilingual speech recognition
despite LLaMA being trained overwhelmingly on English text. Furthermore, we
perform ablation studies to investigate whether the LLM can be completely
frozen during training to maintain its original capabilities, scaling up the
audio encoder, and increasing the audio encoder striding to generate fewer
embeddings. The results from these studies show that multilingual ASR is
possible even when the LLM is frozen or when strides of almost 1 second are
used in the audio encoder opening up the possibility for LLMs to operate on
long-form audio.