LLaMA-Omni2: 自己回帰型ストリーミング音声合成を備えたLLMベースのリアルタイム音声チャットボット
LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis
May 5, 2025
著者: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng
cs.AI
要旨
リアルタイムで知的かつ自然な音声インタラクションは、次世代の人間とコンピュータの相互作用において不可欠な要素です。最近の進歩により、大規模言語モデル(LLM)に基づいたインテリジェントな音声チャットボットの構築が可能であることが示されています。本論文では、0.5Bから14Bパラメータまでの音声言語モデル(SpeechLM)シリーズであるLLaMA-Omni 2を紹介します。LLaMA-Omni 2は、高品質なリアルタイム音声インタラクションを実現可能です。LLaMA-Omni 2はQwen2.5シリーズモデルを基盤として構築されており、音声エンコーダと自己回帰型ストリーミング音声デコーダを統合しています。わずか20万件の多ターン音声対話サンプルで学習されたにもかかわらず、LLaMA-Omni 2は、複数の音声質問応答および音声指示追従ベンチマークにおいて、数百万時間の音声データで学習されたGLM-4-Voiceなどの従来の最先端SpeechLMを凌駕する強力な性能を示しています。
English
Real-time, intelligent, and natural speech interaction is an essential part
of the next-generation human-computer interaction. Recent advancements have
showcased the potential of building intelligent spoken chatbots based on large
language models (LLMs). In this paper, we introduce LLaMA-Omni 2, a series of
speech language models (SpeechLMs) ranging from 0.5B to 14B parameters, capable
of achieving high-quality real-time speech interaction. LLaMA-Omni 2 is built
upon the Qwen2.5 series models, integrating a speech encoder and an
autoregressive streaming speech decoder. Despite being trained on only 200K
multi-turn speech dialogue samples, LLaMA-Omni 2 demonstrates strong
performance on several spoken question answering and speech instruction
following benchmarks, surpassing previous state-of-the-art SpeechLMs like
GLM-4-Voice, which was trained on millions of hours of speech data.Summary
AI-Generated Summary