LLaMA-Omni2: Chatbot de conversación hablada en tiempo real basado en LLM con síntesis de voz autoregresiva en streaming
LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis
May 5, 2025
Autores: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng
cs.AI
Resumen
La interacción de voz en tiempo real, inteligente y natural es un componente esencial de la próxima generación de interacción humano-computadora. Los avances recientes han demostrado el potencial de construir chatbots hablados inteligentes basados en modelos de lenguaje grandes (LLMs, por sus siglas en inglés). En este artículo, presentamos LLaMA-Omni 2, una serie de modelos de lenguaje de voz (SpeechLMs) que van desde 0.5B hasta 14B parámetros, capaces de lograr una interacción de voz de alta calidad en tiempo real. LLaMA-Omni 2 se construye sobre los modelos de la serie Qwen2.5, integrando un codificador de voz y un decodificador de voz en flujo autoregresivo. A pesar de haber sido entrenado con solo 200K muestras de diálogos de voz de múltiples turnos, LLaMA-Omni 2 demuestra un rendimiento sólido en varios benchmarks de respuesta a preguntas habladas y seguimiento de instrucciones de voz, superando a los SpeechLMs anteriores de última generación como GLM-4-Voice, que fue entrenado con millones de horas de datos de voz.
English
Real-time, intelligent, and natural speech interaction is an essential part
of the next-generation human-computer interaction. Recent advancements have
showcased the potential of building intelligent spoken chatbots based on large
language models (LLMs). In this paper, we introduce LLaMA-Omni 2, a series of
speech language models (SpeechLMs) ranging from 0.5B to 14B parameters, capable
of achieving high-quality real-time speech interaction. LLaMA-Omni 2 is built
upon the Qwen2.5 series models, integrating a speech encoder and an
autoregressive streaming speech decoder. Despite being trained on only 200K
multi-turn speech dialogue samples, LLaMA-Omni 2 demonstrates strong
performance on several spoken question answering and speech instruction
following benchmarks, surpassing previous state-of-the-art SpeechLMs like
GLM-4-Voice, which was trained on millions of hours of speech data.Summary
AI-Generated Summary