ChatPaper.aiChatPaper

LLaMA-Omni2: LLM-ориентированный чат-бот с поддержкой реального времени и авторегрессивным потоковым синтезом речи

LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

May 5, 2025
Авторы: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng
cs.AI

Аннотация

Реальное время, интеллектуальное и естественное речевое взаимодействие является важной частью следующего поколения взаимодействия человека с компьютером. Последние достижения продемонстрировали потенциал создания интеллектуальных речевых чат-ботов на основе крупных языковых моделей (LLM). В данной статье мы представляем LLaMA-Omni 2 — серию речевых языковых моделей (SpeechLM) с параметрами от 0,5 млрд до 14 млрд, способных обеспечивать высококачественное взаимодействие в реальном времени. LLaMA-Omni 2 построена на основе моделей серии Qwen2.5, интегрируя речевой кодировщик и авторегрессивный потоковый речевой декодер. Несмотря на обучение всего на 200 тыс. многоходовых речевых диалоговых образцов, LLaMA-Omni 2 демонстрирует высокую производительность на нескольких тестах по речевому ответу на вопросы и выполнению речевых инструкций, превосходя предыдущие передовые SpeechLM, такие как GLM-4-Voice, которые обучались на миллионах часов речевых данных.
English
Real-time, intelligent, and natural speech interaction is an essential part of the next-generation human-computer interaction. Recent advancements have showcased the potential of building intelligent spoken chatbots based on large language models (LLMs). In this paper, we introduce LLaMA-Omni 2, a series of speech language models (SpeechLMs) ranging from 0.5B to 14B parameters, capable of achieving high-quality real-time speech interaction. LLaMA-Omni 2 is built upon the Qwen2.5 series models, integrating a speech encoder and an autoregressive streaming speech decoder. Despite being trained on only 200K multi-turn speech dialogue samples, LLaMA-Omni 2 demonstrates strong performance on several spoken question answering and speech instruction following benchmarks, surpassing previous state-of-the-art SpeechLMs like GLM-4-Voice, which was trained on millions of hours of speech data.

Summary

AI-Generated Summary

PDF71May 6, 2025