LLaMA-Omni2 : Chatbot vocal en temps réel basé sur LLM avec synthèse vocale autogressive en streaming
LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis
May 5, 2025
Auteurs: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng
cs.AI
Résumé
L'interaction vocale en temps réel, intelligente et naturelle constitue un élément essentiel de la nouvelle génération d'interactions homme-machine. Les avancées récentes ont démontré le potentiel de création de chatbots vocaux intelligents basés sur des modèles de langage de grande taille (LLMs). Dans cet article, nous présentons LLaMA-Omni 2, une série de modèles de langage vocal (SpeechLMs) allant de 0,5 à 14 milliards de paramètres, capables d'offrir une interaction vocale de haute qualité en temps réel. LLaMA-Omni 2 est construit sur les modèles de la série Qwen2.5, intégrant un encodeur vocal et un décodeur de flux vocal autoregressif. Bien qu'entraîné sur seulement 200 000 échantillons de dialogues vocaux multi-tours, LLaMA-Omni 2 affiche des performances solides sur plusieurs benchmarks de questions-réponses vocales et de suivi d'instructions vocales, surpassant les SpeechLMs précédents comme GLM-4-Voice, qui avait été entraîné sur des millions d'heures de données vocales.
English
Real-time, intelligent, and natural speech interaction is an essential part
of the next-generation human-computer interaction. Recent advancements have
showcased the potential of building intelligent spoken chatbots based on large
language models (LLMs). In this paper, we introduce LLaMA-Omni 2, a series of
speech language models (SpeechLMs) ranging from 0.5B to 14B parameters, capable
of achieving high-quality real-time speech interaction. LLaMA-Omni 2 is built
upon the Qwen2.5 series models, integrating a speech encoder and an
autoregressive streaming speech decoder. Despite being trained on only 200K
multi-turn speech dialogue samples, LLaMA-Omni 2 demonstrates strong
performance on several spoken question answering and speech instruction
following benchmarks, surpassing previous state-of-the-art SpeechLMs like
GLM-4-Voice, which was trained on millions of hours of speech data.Summary
AI-Generated Summary