SpeechVerse: Большая обобщаемая аудиоязыковая модель

Аннотация

Большие языковые модели (LLM) продемонстрировали невероятную компетентность в выполнении задач, требующих семантического понимания естественных языковых инструкций. Недавно многие работы дополнили эту способность воспринимать мультимодальные аудио- и текстовые входы, однако их возможности часто ограничены конкретными задачами, такими как автоматическое распознавание речи и перевод. Поэтому мы разработали SpeechVerse, устойчивую многозадачную обучающуюся среду и карьерную систему, объединяющую предварительно обученные модели основ языка и речи через небольшой набор обучаемых параметров, при этом сохраняя замороженные предварительно обученные модели во время обучения. Модели настраиваются на инструкции с использованием непрерывных латентных представлений, извлеченных из модели основы речи, для достижения оптимальной производительности на разнообразных задачах обработки речи с использованием естественных языковых инструкций. Мы проводим обширное тестирование, включающее сравнение производительности нашей модели с традиционными базовыми уровнями на нескольких наборах данных и задачах. Более того, мы оцениваем способность модели к обобщенному следованию инструкциям, тестируя ее на данных вне области, новых подсказках и невидимых задачах. Наши эмпирические эксперименты показывают, что наша многозадачная модель SpeechVerse даже превосходит традиционные базовые уровни по 9 из 11 задач.

English

Large language models (LLMs) have shown incredible proficiency in performing tasks that require semantic understanding of natural language instructions. Recently, many works have further expanded this capability to perceive multimodal audio and text inputs, but their capabilities are often limited to specific fine-tuned tasks such as automatic speech recognition and translation. We therefore develop SpeechVerse, a robust multi-task training and curriculum learning framework that combines pre-trained speech and text foundation models via a small set of learnable parameters, while keeping the pre-trained models frozen during training. The models are instruction finetuned using continuous latent representations extracted from the speech foundation model to achieve optimal zero-shot performance on a diverse range of speech processing tasks using natural language instructions. We perform extensive benchmarking that includes comparing our model performance against traditional baselines across several datasets and tasks. Furthermore, we evaluate the model's capability for generalized instruction following by testing on out-of-domain datasets, novel prompts, and unseen tasks. Our empirical experiments reveal that our multi-task SpeechVerse model is even superior to conventional task-specific baselines on 9 out of the 11 tasks.

SpeechVerse: Большая обобщаемая аудиоязыковая модель

SpeechVerse: A Large-scale Generalizable Audio Language Model

Аннотация

Support