К универсальным речевым возможностям для больших языковых моделей с использованием несопоставленных данных
Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data
November 12, 2023
Авторы: Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
cs.AI
Аннотация
В данной работе мы расширяем возможности модели Llama-2, настроенной на выполнение инструкций, добавляя сквозную обработку речи общего назначения и способность к рассуждениям, сохраняя при этом широкий спектр возможностей языковых моделей (LLM), без использования тщательно подобранных парных данных. Предложенная модель способна использовать аудиоподсказки вместо текста и поддерживать диалог. Такая модель также обладает расширенными кросс-модальными возможностями, такими как выполнение ответов на вопросы на основе речи, перевод речи и суммаризация аудио, среди множества других задач в закрытых и открытых доменах. Это отличается от предыдущих подходов в обработке речи, где LLM расширялись для работы с аудио только для ограниченного числа заранее определённых задач. Эксперименты показывают, что наш сквозной подход сопоставим или превосходит каскадную систему (распознавание речи + LLM) с точки зрения моделирования ответа на подсказку. Более того, в отличие от каскадного подхода, наш метод демонстрирует способность взаимозаменять текстовые и аудиомодальности и использовать предыдущий контекст в диалоге для получения более качественных результатов.
English
In this work, we extend the instruction-tuned Llama-2 model with end-to-end
general-purpose speech processing and reasoning abilities while maintaining the
wide range of LLM capabilities, without using any carefully curated paired
data. The proposed model can utilize audio prompts as a replacement for text
and sustain a conversation. Such a model also has extended cross-modal
capabilities such as being able to perform speech question answering, speech
translation, and audio summarization amongst many other closed and open-domain
tasks. This is unlike prior approaches in speech, in which LLMs are extended to
handle audio for a limited number of pre-designated tasks. Experiments show
that our end-to-end approach is on par with or outperforms a cascaded system
(speech recognizer + LLM) in terms of modeling the response to a prompt.
Furthermore, unlike a cascade, our approach shows the ability to interchange
text and audio modalities and utilize the prior context in a conversation to
provide better results.