SpeechVerse: Un modelo de lenguaje de audio generalizable a gran escala
SpeechVerse: A Large-scale Generalizable Audio Language Model
May 14, 2024
Autores: Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una increíble destreza en la realización de tareas que requieren comprensión semántica de instrucciones en lenguaje natural. Recientemente, muchos trabajos han ampliado esta capacidad para percibir entradas multimodales de audio y texto, pero sus capacidades suelen limitarse a tareas específicas ajustadas, como el reconocimiento automático del habla y la traducción. Por ello, desarrollamos SpeechVerse, un marco robusto de entrenamiento multitarea y aprendizaje curricular que combina modelos base preentrenados de habla y texto mediante un pequeño conjunto de parámetros aprendibles, manteniendo los modelos preentrenados congelados durante el entrenamiento. Los modelos se ajustan mediante instrucciones utilizando representaciones latentes continuas extraídas del modelo base de habla para lograr un rendimiento óptimo de cero disparos en una amplia gama de tareas de procesamiento del habla utilizando instrucciones en lenguaje natural. Realizamos una evaluación exhaustiva que incluye la comparación del rendimiento de nuestro modelo con líneas base tradicionales en varios conjuntos de datos y tareas. Además, evaluamos la capacidad del modelo para seguir instrucciones generalizadas mediante pruebas en conjuntos de datos fuera de dominio, indicaciones novedosas y tareas no vistas. Nuestros experimentos empíricos revelan que nuestro modelo multitarea SpeechVerse supera incluso a las líneas base específicas de tareas convencionales en 9 de las 11 tareas.
English
Large language models (LLMs) have shown incredible proficiency in performing
tasks that require semantic understanding of natural language instructions.
Recently, many works have further expanded this capability to perceive
multimodal audio and text inputs, but their capabilities are often limited to
specific fine-tuned tasks such as automatic speech recognition and translation.
We therefore develop SpeechVerse, a robust multi-task training and curriculum
learning framework that combines pre-trained speech and text foundation models
via a small set of learnable parameters, while keeping the pre-trained models
frozen during training. The models are instruction finetuned using continuous
latent representations extracted from the speech foundation model to achieve
optimal zero-shot performance on a diverse range of speech processing tasks
using natural language instructions. We perform extensive benchmarking that
includes comparing our model performance against traditional baselines across
several datasets and tasks. Furthermore, we evaluate the model's capability for
generalized instruction following by testing on out-of-domain datasets, novel
prompts, and unseen tasks. Our empirical experiments reveal that our multi-task
SpeechVerse model is even superior to conventional task-specific baselines on 9
out of the 11 tasks.Summary
AI-Generated Summary