ChatPaper.aiChatPaper

SpeechVerse : Un modèle de langage audio généralisable à grande échelle

SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14, 2024
Auteurs: Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff
cs.AI

Résumé

Les grands modèles de langage (LLM) ont démontré une maîtrise impressionnante dans l'exécution de tâches nécessitant une compréhension sémantique des instructions en langage naturel. Récemment, de nombreux travaux ont étendu cette capacité à la perception d'entrées multimodales audio et texte, mais leurs performances restent souvent limitées à des tâches spécifiques affinées, telles que la reconnaissance automatique de la parole et la traduction. Nous développons donc SpeechVerse, un cadre robuste d'apprentissage multi-tâches et curriculaire qui combine des modèles de base pré-entraînés pour la parole et le texte via un petit ensemble de paramètres apprenables, tout en gardant les modèles pré-entraînés figés pendant l'entraînement. Les modèles sont affinés par instruction en utilisant des représentations latentes continues extraites du modèle de base pour la parole, afin d'atteindre des performances optimales en zero-shot sur une gamme variée de tâches de traitement de la parole à l'aide d'instructions en langage naturel. Nous effectuons un benchmarking approfondi, comprenant la comparaison des performances de notre modèle avec des modèles de référence traditionnels sur plusieurs jeux de données et tâches. De plus, nous évaluons la capacité du modèle à suivre des instructions généralisées en le testant sur des jeux de données hors domaine, des prompts nouveaux et des tâches inédites. Nos expériences empiriques révèlent que notre modèle multi-tâches SpeechVerse surpasse même les modèles de référence spécifiques à une tâche sur 9 des 11 tâches évaluées.
English
Large language models (LLMs) have shown incredible proficiency in performing tasks that require semantic understanding of natural language instructions. Recently, many works have further expanded this capability to perceive multimodal audio and text inputs, but their capabilities are often limited to specific fine-tuned tasks such as automatic speech recognition and translation. We therefore develop SpeechVerse, a robust multi-task training and curriculum learning framework that combines pre-trained speech and text foundation models via a small set of learnable parameters, while keeping the pre-trained models frozen during training. The models are instruction finetuned using continuous latent representations extracted from the speech foundation model to achieve optimal zero-shot performance on a diverse range of speech processing tasks using natural language instructions. We perform extensive benchmarking that includes comparing our model performance against traditional baselines across several datasets and tasks. Furthermore, we evaluate the model's capability for generalized instruction following by testing on out-of-domain datasets, novel prompts, and unseen tasks. Our empirical experiments reveal that our multi-task SpeechVerse model is even superior to conventional task-specific baselines on 9 out of the 11 tasks.

Summary

AI-Generated Summary

PDF200December 15, 2024