ChatPaper.aiChatPaper

LLaMA-Omni2: Chatbot de conversación hablada en tiempo real basado en LLM con síntesis de voz autoregresiva en streaming

LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

May 5, 2025
Autores: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng
cs.AI

Resumen

La interacción de voz en tiempo real, inteligente y natural es un componente esencial de la próxima generación de interacción humano-computadora. Los avances recientes han demostrado el potencial de construir chatbots hablados inteligentes basados en modelos de lenguaje grandes (LLMs, por sus siglas en inglés). En este artículo, presentamos LLaMA-Omni 2, una serie de modelos de lenguaje de voz (SpeechLMs) que van desde 0.5B hasta 14B parámetros, capaces de lograr una interacción de voz de alta calidad en tiempo real. LLaMA-Omni 2 se construye sobre los modelos de la serie Qwen2.5, integrando un codificador de voz y un decodificador de voz en flujo autoregresivo. A pesar de haber sido entrenado con solo 200K muestras de diálogos de voz de múltiples turnos, LLaMA-Omni 2 demuestra un rendimiento sólido en varios benchmarks de respuesta a preguntas habladas y seguimiento de instrucciones de voz, superando a los SpeechLMs anteriores de última generación como GLM-4-Voice, que fue entrenado con millones de horas de datos de voz.
English
Real-time, intelligent, and natural speech interaction is an essential part of the next-generation human-computer interaction. Recent advancements have showcased the potential of building intelligent spoken chatbots based on large language models (LLMs). In this paper, we introduce LLaMA-Omni 2, a series of speech language models (SpeechLMs) ranging from 0.5B to 14B parameters, capable of achieving high-quality real-time speech interaction. LLaMA-Omni 2 is built upon the Qwen2.5 series models, integrating a speech encoder and an autoregressive streaming speech decoder. Despite being trained on only 200K multi-turn speech dialogue samples, LLaMA-Omni 2 demonstrates strong performance on several spoken question answering and speech instruction following benchmarks, surpassing previous state-of-the-art SpeechLMs like GLM-4-Voice, which was trained on millions of hours of speech data.

Summary

AI-Generated Summary

PDF71May 6, 2025