ChatPaper.aiChatPaper

LLaMA-Omni2: 자동회귀 스트리밍 음성 합성을 지원하는 LLM 기반 실시간 음성 채팅봇

LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

May 5, 2025
저자: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng
cs.AI

초록

실시간, 지능적, 자연스러운 음성 상호작용은 차세대 인간-컴퓨터 상호작용의 핵심 요소입니다. 최근의 발전은 대규모 언어 모델(LLMs)을 기반으로 지능형 음성 챗봇을 구축할 수 있는 잠재력을 보여주었습니다. 본 논문에서는 0.5B에서 14B 파라미터 규모의 음성 언어 모델(SpeechLMs) 시리즈인 LLaMA-Omni 2를 소개합니다. 이 모델은 고품질의 실시간 음성 상호작용을 달성할 수 있습니다. LLaMA-Omni 2는 Qwen2.5 시리즈 모델을 기반으로 구축되었으며, 음성 인코더와 자동회귀 스트리밍 음성 디코더를 통합했습니다. 단 200K의 다중 턴 음성 대화 샘플로만 훈련되었음에도 불구하고, LLaMA-Omni 2는 여러 음성 질의응답 및 음성 명령 수행 벤치마크에서 강력한 성능을 보이며, 수백만 시간의 음성 데이터로 훈련된 GLM-4-Voice와 같은 이전의 최첨단 SpeechLMs를 능가합니다.
English
Real-time, intelligent, and natural speech interaction is an essential part of the next-generation human-computer interaction. Recent advancements have showcased the potential of building intelligent spoken chatbots based on large language models (LLMs). In this paper, we introduce LLaMA-Omni 2, a series of speech language models (SpeechLMs) ranging from 0.5B to 14B parameters, capable of achieving high-quality real-time speech interaction. LLaMA-Omni 2 is built upon the Qwen2.5 series models, integrating a speech encoder and an autoregressive streaming speech decoder. Despite being trained on only 200K multi-turn speech dialogue samples, LLaMA-Omni 2 demonstrates strong performance on several spoken question answering and speech instruction following benchmarks, surpassing previous state-of-the-art SpeechLMs like GLM-4-Voice, which was trained on millions of hours of speech data.

Summary

AI-Generated Summary

PDF51May 6, 2025