ChatPaper.aiChatPaper

LLaMA-Omni2 : Chatbot vocal en temps réel basé sur LLM avec synthèse vocale autogressive en streaming

LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

May 5, 2025
Auteurs: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng
cs.AI

Résumé

L'interaction vocale en temps réel, intelligente et naturelle constitue un élément essentiel de la nouvelle génération d'interactions homme-machine. Les avancées récentes ont démontré le potentiel de création de chatbots vocaux intelligents basés sur des modèles de langage de grande taille (LLMs). Dans cet article, nous présentons LLaMA-Omni 2, une série de modèles de langage vocal (SpeechLMs) allant de 0,5 à 14 milliards de paramètres, capables d'offrir une interaction vocale de haute qualité en temps réel. LLaMA-Omni 2 est construit sur les modèles de la série Qwen2.5, intégrant un encodeur vocal et un décodeur de flux vocal autoregressif. Bien qu'entraîné sur seulement 200 000 échantillons de dialogues vocaux multi-tours, LLaMA-Omni 2 affiche des performances solides sur plusieurs benchmarks de questions-réponses vocales et de suivi d'instructions vocales, surpassant les SpeechLMs précédents comme GLM-4-Voice, qui avait été entraîné sur des millions d'heures de données vocales.
English
Real-time, intelligent, and natural speech interaction is an essential part of the next-generation human-computer interaction. Recent advancements have showcased the potential of building intelligent spoken chatbots based on large language models (LLMs). In this paper, we introduce LLaMA-Omni 2, a series of speech language models (SpeechLMs) ranging from 0.5B to 14B parameters, capable of achieving high-quality real-time speech interaction. LLaMA-Omni 2 is built upon the Qwen2.5 series models, integrating a speech encoder and an autoregressive streaming speech decoder. Despite being trained on only 200K multi-turn speech dialogue samples, LLaMA-Omni 2 demonstrates strong performance on several spoken question answering and speech instruction following benchmarks, surpassing previous state-of-the-art SpeechLMs like GLM-4-Voice, which was trained on millions of hours of speech data.

Summary

AI-Generated Summary

PDF71May 6, 2025