LLaMA-Omni: Беспрепятственное взаимодействие с большими языковыми моделямиLLaMA-Omni: Seamless Speech Interaction with Large Language Models
Модели, подобные GPT-4o, позволяют взаимодействовать в реальном времени с большими языковыми моделями (LLM) через речь, значительно улучшая опыт пользователя по сравнению с традиционным текстовым взаимодействием. Однако до сих пор существует недостаток исследований по вопросу о том, как создавать модели речевого взаимодействия на основе открытых LLM. Для решения этой проблемы мы предлагаем LLaMA-Omni, новую архитектуру модели, разработанную для низкой задержки и высококачественного речевого взаимодействия с LLM. LLaMA-Omni интегрирует предварительно обученный речевой энкодер, речевой адаптер, LLM и потоковый речевой декодер. Он устраняет необходимость в транскрипции речи и может одновременно генерировать текстовые и речевые ответы непосредственно из речевых инструкций с крайне низкой задержкой. Мы строим нашу модель на основе последней модели Llama-3.1-8B-Instruct. Для адаптации модели к сценариям речевого взаимодействия мы создаем набор данных под названием InstructS2S-200K, который включает 200 тыс. речевых инструкций и соответствующих речевых ответов. Экспериментальные результаты показывают, что по сравнению с предыдущими моделями речь-язык, LLaMA-Omni предоставляет лучшие ответы как по содержанию, так и по стилю, с задержкой ответа всего 226 мс. Кроме того, обучение LLaMA-Omni занимает менее 3 дней всего на 4 GPU, что укладывает путь для эффективной разработки моделей речь-язык в будущем.