ChatPaper.aiChatPaper

LLMVoX: Modelo de Texto a Voz Autoregresivo en Streaming para Cualquier LLM

LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

March 6, 2025
Autores: Sambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Khan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal
cs.AI

Resumen

Los avances recientes en los sistemas de diálogo de voz a voz aprovechan los LLM para interacciones multimodales, pero siguen limitados por los requisitos de ajuste fino, el alto costo computacional y la desalineación entre texto y voz. Los LLM habilitados para voz existentes suelen degradar la calidad conversacional al modificar el LLM, comprometiendo así sus capacidades lingüísticas. En contraste, proponemos LLMVoX, un sistema ligero de TTS autoregresivo en streaming de 30M parámetros, independiente del LLM, que genera voz de alta calidad con baja latencia, preservando completamente las capacidades del LLM base. Nuestro enfoque logra una tasa de error de palabras significativamente menor en comparación con los LLM habilitados para voz, operando con una latencia y puntuación UTMOS comparables. Al desacoplar la síntesis de voz del procesamiento del LLM mediante un sistema de streaming de tokens con múltiples colas, LLMVoX permite diálogos fluidos y de longitud infinita. Su diseño plug-and-play también facilita la extensión a diversas tareas con diferentes arquitecturas base. Además, LLMVoX se generaliza a nuevos idiomas con solo adaptación del conjunto de datos, alcanzando una baja tasa de error de caracteres en una tarea de voz en árabe. Adicionalmente, hemos integrado LLMVoX con un Modelo de Lenguaje-Visión para crear un modelo omni con capacidades de voz, texto y visión, sin requerir entrenamiento multimodal adicional. Nuestro código base y página del proyecto están disponibles en https://mbzuai-oryx.github.io/LLMVoX.
English
Recent advancements in speech-to-speech dialogue systems leverage LLMs for multimodal interactions, yet they remain hindered by fine-tuning requirements, high computational overhead, and text-speech misalignment. Existing speech-enabled LLMs often degrade conversational quality by modifying the LLM, thereby compromising its linguistic capabilities. In contrast, we propose LLMVoX, a lightweight 30M-parameter, LLM-agnostic, autoregressive streaming TTS system that generates high-quality speech with low latency, while fully preserving the capabilities of the base LLM. Our approach achieves a significantly lower Word Error Rate compared to speech-enabled LLMs, while operating at comparable latency and UTMOS score. By decoupling speech synthesis from LLM processing via a multi-queue token streaming system, LLMVoX supports seamless, infinite-length dialogues. Its plug-and-play design also facilitates extension to various tasks with different backbones. Furthermore, LLMVoX generalizes to new languages with only dataset adaptation, attaining a low Character Error Rate on an Arabic speech task. Additionally, we have integrated LLMVoX with a Vision-Language Model to create an omni-model with speech, text, and vision capabilities, without requiring additional multimodal training. Our code base and project page is available at https://mbzuai-oryx.github.io/LLMVoX .

Summary

AI-Generated Summary

PDF705March 7, 2025