SpeechVerse: 大規模汎用音声言語モデル
SpeechVerse: A Large-scale Generalizable Audio Language Model
May 14, 2024
著者: Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff
cs.AI
要旨
大規模言語モデル(LLMs)は、自然言語の指示に対する意味理解を必要とするタスクにおいて驚異的な能力を示しています。最近では、多くの研究がこの能力を音声とテキストのマルチモーダル入力の認識にまで拡張していますが、その能力は自動音声認識や翻訳などの特定のファインチューニングされたタスクに限定されることが多いです。そこで我々は、事前学習された音声とテキストの基盤モデルを少数の学習可能なパラメータを介して組み合わせ、訓練中に事前学習モデルを凍結したままに保つ、堅牢なマルチタスク訓練とカリキュラム学習のフレームワークであるSpeechVerseを開発しました。このモデルは、音声基盤モデルから抽出された連続的な潜在表現を使用して指示ファインチューニングを行い、自然言語の指示を用いた多様な音声処理タスクにおいて最適なゼロショット性能を達成します。我々は、複数のデータセットとタスクにわたって従来のベースラインとモデル性能を比較する広範なベンチマークを行いました。さらに、ドメイン外のデータセット、新しいプロンプト、未見のタスクに対するテストを通じて、モデルの一般化された指示追従能力を評価しました。我々の実験結果は、マルチタスクのSpeechVerseモデルが11のタスクのうち9つにおいて従来のタスク固有のベースラインよりも優れていることを明らかにしています。
English
Large language models (LLMs) have shown incredible proficiency in performing
tasks that require semantic understanding of natural language instructions.
Recently, many works have further expanded this capability to perceive
multimodal audio and text inputs, but their capabilities are often limited to
specific fine-tuned tasks such as automatic speech recognition and translation.
We therefore develop SpeechVerse, a robust multi-task training and curriculum
learning framework that combines pre-trained speech and text foundation models
via a small set of learnable parameters, while keeping the pre-trained models
frozen during training. The models are instruction finetuned using continuous
latent representations extracted from the speech foundation model to achieve
optimal zero-shot performance on a diverse range of speech processing tasks
using natural language instructions. We perform extensive benchmarking that
includes comparing our model performance against traditional baselines across
several datasets and tasks. Furthermore, we evaluate the model's capability for
generalized instruction following by testing on out-of-domain datasets, novel
prompts, and unseen tasks. Our empirical experiments reveal that our multi-task
SpeechVerse model is even superior to conventional task-specific baselines on 9
out of the 11 tasks.Summary
AI-Generated Summary