Запросы к крупным языковым моделям с функциями распознавания речи
Prompting Large Language Models with Speech Recognition Abilities
July 21, 2023
Авторы: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Ke Li, Jinxi Guo, Wenhan Xiong, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI
Аннотация
Крупные языковые модели продемонстрировали высокую гибкость, способность решать широкий спектр генеративных задач, таких как абстрактное суммирование и открытые вопросы. В данной работе мы расширяем возможности языковых моделей, напрямую подключая к ним небольшой аудиоэнкодер, что позволяет им выполнять распознавание речи. Путем непосредственного добавления последовательности аудиальных эмбеддингов к эмбеддингам текстовых токенов языковая модель может быть преобразована в систему автоматического распознавания речи (ASR) и использоваться точно так же, как и её текстовая версия. Эксперименты на наборе данных Multilingual LibriSpeech (MLS) показывают, что интеграция конформерного энкодера в открытую модель LLaMA-7B позволяет ей превзойти монолингвальные базовые модели на 18% и выполнять многоязычное распознавание речи, несмотря на то, что LLaMA обучалась преимущественно на английских текстах. Кроме того, мы проводим исследования с удалением компонентов, чтобы выяснить, можно ли полностью заморозить языковую модель во время обучения для сохранения её исходных возможностей, масштабировать аудиоэнкодер и увеличить шаг аудиоэнкодера для генерации меньшего количества эмбеддингов. Результаты этих исследований показывают, что многоязычное ASR возможно даже при замороженной языковой модели или при использовании шага аудиоэнкодера длительностью почти в 1 секунду, что открывает возможность для работы языковых моделей с длинными аудиозаписями.
English
Large language models have proven themselves highly flexible, able to solve a
wide range of generative tasks, such as abstractive summarization and
open-ended question answering. In this paper we extend the capabilities of LLMs
by directly attaching a small audio encoder allowing it to perform speech
recognition. By directly prepending a sequence of audial embeddings to the text
token embeddings, the LLM can be converted to an automatic speech recognition
(ASR) system, and be used in the exact same manner as its textual counterpart.
Experiments on Multilingual LibriSpeech (MLS) show that incorporating a
conformer encoder into the open sourced LLaMA-7B allows it to outperform
monolingual baselines by 18% and perform multilingual speech recognition
despite LLaMA being trained overwhelmingly on English text. Furthermore, we
perform ablation studies to investigate whether the LLM can be completely
frozen during training to maintain its original capabilities, scaling up the
audio encoder, and increasing the audio encoder striding to generate fewer
embeddings. The results from these studies show that multilingual ASR is
possible even when the LLM is frozen or when strides of almost 1 second are
used in the audio encoder opening up the possibility for LLMs to operate on
long-form audio.