ChatPaper.aiChatPaper

SpeechVerse: Un Modello Linguistico Audio Scalabile e Generalizzabile su Larga Scala

SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14, 2024
Autori: Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato una straordinaria capacità nell'eseguire compiti che richiedono una comprensione semantica delle istruzioni in linguaggio naturale. Recentemente, molti lavori hanno ulteriormente ampliato questa capacità per percepire input multimodali audio e testuali, ma le loro funzionalità sono spesso limitate a specifici compiti ottimizzati, come il riconoscimento vocale automatico e la traduzione. Abbiamo quindi sviluppato SpeechVerse, un robusto framework di formazione multi-task e apprendimento curriculare che combina modelli di base pre-addestrati per il parlato e il testo attraverso un piccolo insieme di parametri apprendibili, mantenendo i modelli pre-addestrati congelati durante la formazione. I modelli vengono ottimizzati per le istruzioni utilizzando rappresentazioni latenti continue estratte dal modello di base per il parlato, per ottenere prestazioni ottimali zero-shot su una vasta gamma di compiti di elaborazione del parlato utilizzando istruzioni in linguaggio naturale. Eseguiamo un benchmarking estensivo che include il confronto delle prestazioni del nostro modello con i tradizionali baseline su diversi dataset e compiti. Inoltre, valutiamo la capacità del modello di seguire istruzioni generalizzate testandolo su dataset fuori dominio, prompt nuovi e compiti mai visti. I nostri esperimenti empirici rivelano che il nostro modello multi-task SpeechVerse è addirittura superiore ai tradizionali baseline specifici per compito in 9 su 11 dei compiti analizzati.
English
Large language models (LLMs) have shown incredible proficiency in performing tasks that require semantic understanding of natural language instructions. Recently, many works have further expanded this capability to perceive multimodal audio and text inputs, but their capabilities are often limited to specific fine-tuned tasks such as automatic speech recognition and translation. We therefore develop SpeechVerse, a robust multi-task training and curriculum learning framework that combines pre-trained speech and text foundation models via a small set of learnable parameters, while keeping the pre-trained models frozen during training. The models are instruction finetuned using continuous latent representations extracted from the speech foundation model to achieve optimal zero-shot performance on a diverse range of speech processing tasks using natural language instructions. We perform extensive benchmarking that includes comparing our model performance against traditional baselines across several datasets and tasks. Furthermore, we evaluate the model's capability for generalized instruction following by testing on out-of-domain datasets, novel prompts, and unseen tasks. Our empirical experiments reveal that our multi-task SpeechVerse model is even superior to conventional task-specific baselines on 9 out of the 11 tasks.
PDF190February 8, 2026