SpeechVerse: Ein groß angelegtes, generalisierbares Audio-Sprachmodell
SpeechVerse: A Large-scale Generalizable Audio Language Model
May 14, 2024
Autoren: Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben eine unglaubliche Kompetenz bei der Durchführung von Aufgaben gezeigt, die eine semantische Verständnis von natürlichsprachlichen Anweisungen erfordern. In letzter Zeit haben viele Arbeiten diese Fähigkeit weiter ausgebaut, um multimodale Audio- und Texteingaben wahrzunehmen, aber ihre Fähigkeiten sind oft auf spezifische feinabgestimmte Aufgaben wie automatische Spracherkennung und Übersetzung beschränkt. Daher haben wir SpeechVerse entwickelt, ein robustes Multi-Task-Trainings- und Curriculum-Lernframework, das vortrainierte Sprach- und Textgrundlagenmodelle über eine kleine Menge erlernbarer Parameter kombiniert, während die vortrainierten Modelle während des Trainings eingefroren bleiben. Die Modelle werden durch kontinuierliche latente Repräsentationen, die aus dem Sprachgrundlagenmodell extrahiert werden, anhand von natürlichsprachlichen Anweisungen feinabgestimmt, um optimale Null-Schuss-Leistung bei einer Vielzahl von Sprachverarbeitungsaufgaben zu erreichen. Wir führen umfangreiche Benchmarking durch, das die Leistung unseres Modells mit traditionellen Baselines über mehrere Datensätze und Aufgaben vergleicht. Darüber hinaus bewerten wir die Fähigkeit des Modells zur generalisierten Anweisungsbefolgung, indem wir es an Out-of-Domain-Datensätzen, neuen Aufforderungen und unbekannten Aufgaben testen. Unsere empirischen Experimente zeigen, dass unser Multi-Task-SpeechVerse-Modell sogar bei 9 von 11 Aufgaben den konventionellen aufgabenspezifischen Baselines überlegen ist.
English
Large language models (LLMs) have shown incredible proficiency in performing
tasks that require semantic understanding of natural language instructions.
Recently, many works have further expanded this capability to perceive
multimodal audio and text inputs, but their capabilities are often limited to
specific fine-tuned tasks such as automatic speech recognition and translation.
We therefore develop SpeechVerse, a robust multi-task training and curriculum
learning framework that combines pre-trained speech and text foundation models
via a small set of learnable parameters, while keeping the pre-trained models
frozen during training. The models are instruction finetuned using continuous
latent representations extracted from the speech foundation model to achieve
optimal zero-shot performance on a diverse range of speech processing tasks
using natural language instructions. We perform extensive benchmarking that
includes comparing our model performance against traditional baselines across
several datasets and tasks. Furthermore, we evaluate the model's capability for
generalized instruction following by testing on out-of-domain datasets, novel
prompts, and unseen tasks. Our empirical experiments reveal that our multi-task
SpeechVerse model is even superior to conventional task-specific baselines on 9
out of the 11 tasks.Summary
AI-Generated Summary