SpeechVerse: Um Modelo de Linguagem de Áudio Generalizável em Grande Escala
SpeechVerse: A Large-scale Generalizable Audio Language Model
May 14, 2024
Autores: Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado uma proficiência incrível na execução de tarefas que exigem compreensão semântica de instruções em linguagem natural. Recentemente, muitos trabalhos expandiram ainda mais essa capacidade para perceber entradas multimodais de áudio e texto, mas suas capacidades são frequentemente limitadas a tarefas específicas ajustadas, como reconhecimento automático de fala e tradução. Portanto, desenvolvemos o SpeechVerse, uma estrutura robusta de treinamento multitarefa e aprendizado curricular que combina modelos de base pré-treinados de fala e texto por meio de um pequeno conjunto de parâmetros aprendíveis, mantendo os modelos pré-treinados congelados durante o treinamento. Os modelos são ajustados por instruções usando representações latentes contínuas extraídas do modelo de base de fala para alcançar desempenho zero-shot ideal em uma ampla gama de tarefas de processamento de fala usando instruções em linguagem natural. Realizamos extensos benchmarks que incluem a comparação do desempenho do nosso modelo com linhas de base tradicionais em vários conjuntos de dados e tarefas. Além disso, avaliamos a capacidade do modelo para seguir instruções generalizadas testando em conjuntos de dados fora do domínio, prompts novos e tarefas não vistas. Nossos experimentos empíricos revelam que nosso modelo multitarefa SpeechVerse é ainda superior às linhas de base convencionais específicas para tarefas em 9 das 11 tarefas.
English
Large language models (LLMs) have shown incredible proficiency in performing
tasks that require semantic understanding of natural language instructions.
Recently, many works have further expanded this capability to perceive
multimodal audio and text inputs, but their capabilities are often limited to
specific fine-tuned tasks such as automatic speech recognition and translation.
We therefore develop SpeechVerse, a robust multi-task training and curriculum
learning framework that combines pre-trained speech and text foundation models
via a small set of learnable parameters, while keeping the pre-trained models
frozen during training. The models are instruction finetuned using continuous
latent representations extracted from the speech foundation model to achieve
optimal zero-shot performance on a diverse range of speech processing tasks
using natural language instructions. We perform extensive benchmarking that
includes comparing our model performance against traditional baselines across
several datasets and tasks. Furthermore, we evaluate the model's capability for
generalized instruction following by testing on out-of-domain datasets, novel
prompts, and unseen tasks. Our empirical experiments reveal that our multi-task
SpeechVerse model is even superior to conventional task-specific baselines on 9
out of the 11 tasks.