ChatPaper.aiChatPaper

SpeechVerse: 大規模汎用音声言語モデル

SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14, 2024
著者: Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff
cs.AI

要旨

大規模言語モデル(LLMs)は、自然言語の指示に対する意味理解を必要とするタスクにおいて驚異的な能力を示しています。最近では、多くの研究がこの能力を音声とテキストのマルチモーダル入力の認識にまで拡張していますが、その能力は自動音声認識や翻訳などの特定のファインチューニングされたタスクに限定されることが多いです。そこで我々は、事前学習された音声とテキストの基盤モデルを少数の学習可能なパラメータを介して組み合わせ、訓練中に事前学習モデルを凍結したままに保つ、堅牢なマルチタスク訓練とカリキュラム学習のフレームワークであるSpeechVerseを開発しました。このモデルは、音声基盤モデルから抽出された連続的な潜在表現を使用して指示ファインチューニングを行い、自然言語の指示を用いた多様な音声処理タスクにおいて最適なゼロショット性能を達成します。我々は、複数のデータセットとタスクにわたって従来のベースラインとモデル性能を比較する広範なベンチマークを行いました。さらに、ドメイン外のデータセット、新しいプロンプト、未見のタスクに対するテストを通じて、モデルの一般化された指示追従能力を評価しました。我々の実験結果は、マルチタスクのSpeechVerseモデルが11のタスクのうち9つにおいて従来のタスク固有のベースラインよりも優れていることを明らかにしています。
English
Large language models (LLMs) have shown incredible proficiency in performing tasks that require semantic understanding of natural language instructions. Recently, many works have further expanded this capability to perceive multimodal audio and text inputs, but their capabilities are often limited to specific fine-tuned tasks such as automatic speech recognition and translation. We therefore develop SpeechVerse, a robust multi-task training and curriculum learning framework that combines pre-trained speech and text foundation models via a small set of learnable parameters, while keeping the pre-trained models frozen during training. The models are instruction finetuned using continuous latent representations extracted from the speech foundation model to achieve optimal zero-shot performance on a diverse range of speech processing tasks using natural language instructions. We perform extensive benchmarking that includes comparing our model performance against traditional baselines across several datasets and tasks. Furthermore, we evaluate the model's capability for generalized instruction following by testing on out-of-domain datasets, novel prompts, and unseen tasks. Our empirical experiments reveal that our multi-task SpeechVerse model is even superior to conventional task-specific baselines on 9 out of the 11 tasks.

Summary

AI-Generated Summary

PDF200December 15, 2024