ChatPaper.aiChatPaper

SpeechVerse: Een grootschalig generaliseerbaar audio-taalmodel

SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14, 2024
Auteurs: Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff
cs.AI

Samenvatting

Grote taalmodellen (LLMs) hebben een ongelooflijke vaardigheid getoond in het uitvoeren van taken die een semantisch begrip van natuurlijke taal instructies vereisen. Recentelijk hebben veel werken deze capaciteit verder uitgebreid naar het waarnemen van multimodale audio- en tekstinputs, maar hun mogelijkheden zijn vaak beperkt tot specifieke, fijn afgestemde taken zoals automatische spraakherkenning en vertaling. Daarom ontwikkelen we SpeechVerse, een robuust multi-task trainings- en curriculumleren framework dat vooraf getrainde spraak- en tekst foundation modellen combineert via een kleine set leerbare parameters, terwijl de vooraf getrainde modellen tijdens de training bevroren blijven. De modellen worden instructie fijn afgestemd met behulp van continue latente representaties die zijn geëxtraheerd uit het spraak foundation model om optimale zero-shot prestaties te bereiken op een diverse reeks spraakverwerkingstaken met behulp van natuurlijke taal instructies. We voeren uitgebreide benchmarking uit, waaronder het vergelijken van onze modelprestaties met traditionele baselines over verschillende datasets en taken. Bovendien evalueren we het vermogen van het model voor gegeneraliseerde instructieopvolging door te testen op out-of-domain datasets, nieuwe prompts en onbekende taken. Onze empirische experimenten tonen aan dat ons multi-task SpeechVerse-model zelfs superieur is aan conventionele taakspecifieke baselines op 9 van de 11 taken.
English
Large language models (LLMs) have shown incredible proficiency in performing tasks that require semantic understanding of natural language instructions. Recently, many works have further expanded this capability to perceive multimodal audio and text inputs, but their capabilities are often limited to specific fine-tuned tasks such as automatic speech recognition and translation. We therefore develop SpeechVerse, a robust multi-task training and curriculum learning framework that combines pre-trained speech and text foundation models via a small set of learnable parameters, while keeping the pre-trained models frozen during training. The models are instruction finetuned using continuous latent representations extracted from the speech foundation model to achieve optimal zero-shot performance on a diverse range of speech processing tasks using natural language instructions. We perform extensive benchmarking that includes comparing our model performance against traditional baselines across several datasets and tasks. Furthermore, we evaluate the model's capability for generalized instruction following by testing on out-of-domain datasets, novel prompts, and unseen tasks. Our empirical experiments reveal that our multi-task SpeechVerse model is even superior to conventional task-specific baselines on 9 out of the 11 tasks.
PDF190February 8, 2026