WavLLM: Verso un Modello Linguistico di Grande Scala per il Parlato Robusto e Adattivo

Abstract

I recenti progressi nei grandi modelli linguistici (LLM) hanno rivoluzionato il campo dell'elaborazione del linguaggio naturale, ampliando progressivamente il loro ambito alla percezione e generazione multimodale. Tuttavia, integrare efficacemente capacità di ascolto negli LLM presenta sfide significative, in particolare per quanto riguarda la generalizzazione in contesti variabili e l'esecuzione di compiti uditivi complessi. In questo lavoro, introduciamo WavLLM, un robusto e adattabile modello linguistico di grandi dimensioni per il parlato con doppi encoder e un adattatore di pesi LoRA consapevole del prompt, ottimizzato attraverso un approccio di apprendimento curriculare a due fasi. Sfruttando i doppi encoder, separiamo diversi tipi di informazioni vocali, utilizzando un encoder Whisper per elaborare il contenuto semantico del parlato e un encoder WavLM per catturare le caratteristiche uniche dell'identità del parlante. All'interno del framework di apprendimento curriculare, WavLLM sviluppa prima le sue capacità di base ottimizzandosi su compiti elementari singoli misti, seguito da un addestramento multi-task avanzato su compiti più complessi come combinazioni dei compiti elementari. Per migliorare la flessibilità e l'aderenza a diversi compiti e istruzioni, viene introdotto un adattatore di pesi LoRA consapevole del prompt nella seconda fase avanzata di addestramento multi-task. Validiamo il modello proposto su benchmark universali del parlato, inclusi compiti come ASR, ST, SV, ER, e lo applichiamo anche a dataset specializzati come il set di comprensione orale in inglese del Gaokao per SQA e il set di valutazione del ragionamento a catena (CoT) nel parlato. Gli esperimenti dimostrano che il modello proposto raggiunge prestazioni all'avanguardia su una gamma di compiti vocali con la stessa dimensione del modello, mostrando robuste capacità di generalizzazione nell'esecuzione di compiti complessi utilizzando l'approccio CoT. Inoltre, il nostro modello completa con successo i compiti del Gaokao senza un addestramento specializzato. I codici, i modelli, gli audio e il set di valutazione del Gaokao sono accessibili su aka.ms/wavllm.

English

The recent advancements in large language models (LLMs) have revolutionized the field of natural language processing, progressively broadening their scope to multimodal perception and generation. However, effectively integrating listening capabilities into LLMs poses significant challenges, particularly with respect to generalizing across varied contexts and executing complex auditory tasks. In this work, we introduce WavLLM, a robust and adaptive speech large language model with dual encoders, and a prompt-aware LoRA weight adapter, optimized by a two-stage curriculum learning approach. Leveraging dual encoders, we decouple different types of speech information, utilizing a Whisper encoder to process the semantic content of speech, and a WavLM encoder to capture the unique characteristics of the speaker's identity. Within the curriculum learning framework, WavLLM first builds its foundational capabilities by optimizing on mixed elementary single tasks, followed by advanced multi-task training on more complex tasks such as combinations of the elementary tasks. To enhance the flexibility and adherence to different tasks and instructions, a prompt-aware LoRA weight adapter is introduced in the second advanced multi-task training stage. We validate the proposed model on universal speech benchmarks including tasks such as ASR, ST, SV, ER, and also apply it to specialized datasets like Gaokao English listening comprehension set for SQA, and speech Chain-of-Thought (CoT) evaluation set. Experiments demonstrate that the proposed model achieves state-of-the-art performance across a range of speech tasks on the same model size, exhibiting robust generalization capabilities in executing complex tasks using CoT approach. Furthermore, our model successfully completes Gaokao tasks without specialized training. The codes, models, audio, and Gaokao evaluation set can be accessed at aka.ms/wavllm.

WavLLM: Verso un Modello Linguistico di Grande Scala per il Parlato Robusto e Adattivo

WavLLM: Towards Robust and Adaptive Speech Large Language Model

Abstract

Support