ChatPaper.aiChatPaper

WavLLM: 강건하고 적응적인 음성 대형 언어 모델을 향하여

WavLLM: Towards Robust and Adaptive Speech Large Language Model

March 31, 2024
저자: Shujie Hu, Long Zhou, Shujie Liu, Sanyuan Chen, Hongkun Hao, Jing Pan, Xunying Liu, Jinyu Li, Sunit Sivasankaran, Linquan Liu, Furu Wei
cs.AI

초록

최근 대규모 언어 모델(LLM)의 발전은 자연어 처리 분야에 혁신을 가져왔으며, 점차 다중 모달 인식 및 생성으로 그 범위를 확장하고 있습니다. 그러나 LLM에 청각 능력을 효과적으로 통합하는 것은 다양한 맥락에서의 일반화와 복잡한 청각 작업 수행과 관련하여 상당한 도전 과제를 제시합니다. 본 연구에서는 듀얼 인코더와 프롬프트 인식 LoRA 가중치 어댑터를 갖춘 강력하고 적응력 있는 음성 대규모 언어 모델인 WavLLM을 소개하며, 이를 두 단계의 커리큘럼 학습 접근법으로 최적화했습니다. 듀얼 인코더를 활용하여 우리는 다양한 유형의 음성 정보를 분리하여, Whisper 인코더로 음성의 의미적 내용을 처리하고, WavLM 인코더로 화자의 고유한 특성을 포착합니다. 커리큘럼 학습 프레임워크 내에서 WavLLM은 먼저 혼합된 기본 단일 작업에 대한 최적화를 통해 기초 능력을 구축한 후, 기본 작업의 조합과 같은 더 복잡한 작업에 대한 고급 다중 작업 훈련을 수행합니다. 다양한 작업과 지시에 대한 유연성과 준수를 강화하기 위해, 두 번째 고급 다중 작업 훈련 단계에서 프롬프트 인식 LoRA 가중치 어댑터가 도입되었습니다. 우리는 제안된 모델을 ASR, ST, SV, ER과 같은 보편적인 음성 벤치마크 작업에 대해 검증하고, SQA를 위한 Gaokao 영어 듣기 이해 세트 및 음성 Chain-of-Thought(CoT) 평가 세트와 같은 특수 데이터셋에도 적용했습니다. 실험 결과, 제안된 모델은 동일한 모델 크기에서 다양한 음성 작업에서 최첨단 성능을 달성하며, CoT 접근법을 사용하여 복잡한 작업을 실행하는 데 있어 강력한 일반화 능력을 보여줍니다. 또한, 우리의 모델은 특수 훈련 없이도 Gaokao 작업을 성공적으로 완료합니다. 코드, 모델, 오디오 및 Gaokao 평가 세트는 aka.ms/wavllm에서 확인할 수 있습니다.
English
The recent advancements in large language models (LLMs) have revolutionized the field of natural language processing, progressively broadening their scope to multimodal perception and generation. However, effectively integrating listening capabilities into LLMs poses significant challenges, particularly with respect to generalizing across varied contexts and executing complex auditory tasks. In this work, we introduce WavLLM, a robust and adaptive speech large language model with dual encoders, and a prompt-aware LoRA weight adapter, optimized by a two-stage curriculum learning approach. Leveraging dual encoders, we decouple different types of speech information, utilizing a Whisper encoder to process the semantic content of speech, and a WavLM encoder to capture the unique characteristics of the speaker's identity. Within the curriculum learning framework, WavLLM first builds its foundational capabilities by optimizing on mixed elementary single tasks, followed by advanced multi-task training on more complex tasks such as combinations of the elementary tasks. To enhance the flexibility and adherence to different tasks and instructions, a prompt-aware LoRA weight adapter is introduced in the second advanced multi-task training stage. We validate the proposed model on universal speech benchmarks including tasks such as ASR, ST, SV, ER, and also apply it to specialized datasets like Gaokao English listening comprehension set for SQA, and speech Chain-of-Thought (CoT) evaluation set. Experiments demonstrate that the proposed model achieves state-of-the-art performance across a range of speech tasks on the same model size, exhibiting robust generalization capabilities in executing complex tasks using CoT approach. Furthermore, our model successfully completes Gaokao tasks without specialized training. The codes, models, audio, and Gaokao evaluation set can be accessed at aka.ms/wavllm.

Summary

AI-Generated Summary

PDF111November 26, 2024