SpeechVerse: 대규모 일반화 가능 오디오 언어 모델
SpeechVerse: A Large-scale Generalizable Audio Language Model
May 14, 2024
저자: Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff
cs.AI
초록
대규모 언어 모델(LLMs)은 자연어 지시의 의미적 이해를 요구하는 작업을 수행하는 데 놀라운 능력을 보여주고 있습니다. 최근에는 이러한 능력을 오디오와 텍스트 입력을 동시에 인식할 수 있는 다중 모달 방식으로 확장한 많은 연구가 진행되었지만, 이러한 모델의 능력은 자동 음성 인식 및 번역과 같은 특정한 미세 조정 작업에 국한되는 경우가 많습니다. 이에 따라 우리는 SpeechVerse를 개발했습니다. 이는 사전 훈련된 음성 및 텍스트 기반 모델을 소수의 학습 가능한 매개변수를 통해 결합하면서도 훈련 중에 사전 훈련된 모델을 동결 상태로 유지하는 강력한 다중 작업 훈련 및 커리큘럼 학습 프레임워크입니다. 이 모델들은 음성 기반 모델에서 추출된 연속 잠재 표현을 사용하여 자연어 지시를 통해 다양한 음성 처리 작업에서 최적의 제로샷 성능을 달성하도록 지시 미세 조정됩니다. 우리는 여러 데이터셋과 작업에 걸쳐 전통적인 베이스라인과의 모델 성능 비교를 포함한 광범위한 벤치마킹을 수행했습니다. 또한, 도메인 외 데이터셋, 새로운 프롬프트, 그리고 보지 못한 작업에 대한 테스트를 통해 모델의 일반화된 지시 수행 능력을 평가했습니다. 우리의 실험 결과는 다중 작업 SpeechVerse 모델이 11개 작업 중 9개에서 기존의 작업 특화 베이스라인보다 우수함을 보여줍니다.
English
Large language models (LLMs) have shown incredible proficiency in performing
tasks that require semantic understanding of natural language instructions.
Recently, many works have further expanded this capability to perceive
multimodal audio and text inputs, but their capabilities are often limited to
specific fine-tuned tasks such as automatic speech recognition and translation.
We therefore develop SpeechVerse, a robust multi-task training and curriculum
learning framework that combines pre-trained speech and text foundation models
via a small set of learnable parameters, while keeping the pre-trained models
frozen during training. The models are instruction finetuned using continuous
latent representations extracted from the speech foundation model to achieve
optimal zero-shot performance on a diverse range of speech processing tasks
using natural language instructions. We perform extensive benchmarking that
includes comparing our model performance against traditional baselines across
several datasets and tasks. Furthermore, we evaluate the model's capability for
generalized instruction following by testing on out-of-domain datasets, novel
prompts, and unseen tasks. Our empirical experiments reveal that our multi-task
SpeechVerse model is even superior to conventional task-specific baselines on 9
out of the 11 tasks.Summary
AI-Generated Summary