LLaMA-Omni: Беспрепятственное взаимодействие с большими языковыми моделями
LLaMA-Omni: Seamless Speech Interaction with Large Language Models
September 10, 2024
Авторы: Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng
cs.AI
Аннотация
Модели, подобные GPT-4o, позволяют взаимодействовать в реальном времени с большими языковыми моделями (LLM) через речь, значительно улучшая опыт пользователя по сравнению с традиционным текстовым взаимодействием. Однако до сих пор существует недостаток исследований по вопросу о том, как создавать модели речевого взаимодействия на основе открытых LLM. Для решения этой проблемы мы предлагаем LLaMA-Omni, новую архитектуру модели, разработанную для низкой задержки и высококачественного речевого взаимодействия с LLM. LLaMA-Omni интегрирует предварительно обученный речевой энкодер, речевой адаптер, LLM и потоковый речевой декодер. Он устраняет необходимость в транскрипции речи и может одновременно генерировать текстовые и речевые ответы непосредственно из речевых инструкций с крайне низкой задержкой. Мы строим нашу модель на основе последней модели Llama-3.1-8B-Instruct. Для адаптации модели к сценариям речевого взаимодействия мы создаем набор данных под названием InstructS2S-200K, который включает 200 тыс. речевых инструкций и соответствующих речевых ответов. Экспериментальные результаты показывают, что по сравнению с предыдущими моделями речь-язык, LLaMA-Omni предоставляет лучшие ответы как по содержанию, так и по стилю, с задержкой ответа всего 226 мс. Кроме того, обучение LLaMA-Omni занимает менее 3 дней всего на 4 GPU, что укладывает путь для эффективной разработки моделей речь-язык в будущем.
English
Models like GPT-4o enable real-time interaction with large language models
(LLMs) through speech, significantly enhancing user experience compared to
traditional text-based interaction. However, there is still a lack of
exploration on how to build speech interaction models based on open-source
LLMs. To address this, we propose LLaMA-Omni, a novel model architecture
designed for low-latency and high-quality speech interaction with LLMs.
LLaMA-Omni integrates a pretrained speech encoder, a speech adaptor, an LLM,
and a streaming speech decoder. It eliminates the need for speech
transcription, and can simultaneously generate text and speech responses
directly from speech instructions with extremely low latency. We build our
model based on the latest Llama-3.1-8B-Instruct model. To align the model with
speech interaction scenarios, we construct a dataset named InstructS2S-200K,
which includes 200K speech instructions and corresponding speech responses.
Experimental results show that compared to previous speech-language models,
LLaMA-Omni provides better responses in both content and style, with a response
latency as low as 226ms. Additionally, training LLaMA-Omni takes less than 3
days on just 4 GPUs, paving the way for the efficient development of
speech-language models in the future.Summary
AI-Generated Summary