LLMVoX: Autoregressief Streaming Text-naar-Spraak Model voor Elke LLM
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM
March 6, 2025
Auteurs: Sambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Khan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal
cs.AI
Samenvatting
Recente vooruitgang in spraak-naar-spraak dialoogsystemen maakt gebruik van LLM's voor multimodale interacties, maar deze worden nog steeds belemmerd door de noodzaak van fine-tuning, hoge rekenkosten en tekst-spraak-misalignering. Bestaande spraakondersteunde LLM's verminderen vaak de gesprekskwaliteit door de LLM aan te passen, waardoor de linguïstische mogelijkheden worden aangetast. Daarentegen stellen wij LLMVoX voor, een lichtgewicht 30M-parameter, LLM-agnostisch, autoregressief streaming TTS-systeem dat hoogwaardige spraak genereert met lage latentie, terwijl de mogelijkheden van de basis-LLM volledig behouden blijven. Onze aanpak bereikt een aanzienlijk lagere Word Error Rate in vergelijking met spraakondersteunde LLM's, terwijl het werkt met vergelijkbare latentie en UTMOS-score. Door spraaksynthese te ontkoppelen van LLM-verwerking via een multi-queue token streaming-systeem, ondersteunt LLMVoX naadloze, oneindig lange dialogen. Het plug-and-play ontwerp vergemakkelijkt ook uitbreiding naar verschillende taken met verschillende backbones. Bovendien generaliseert LLMVoX naar nieuwe talen met alleen dataset-aanpassing, en bereikt het een lage Character Error Rate op een Arabische spraaktaak. Daarnaast hebben we LLMVoX geïntegreerd met een Vision-Language Model om een omni-model te creëren met spraak-, tekst- en visuele mogelijkheden, zonder aanvullende multimodale training te vereisen. Onze codebase en projectpagina is beschikbaar op https://mbzuai-oryx.github.io/LLMVoX.
English
Recent advancements in speech-to-speech dialogue systems leverage LLMs for
multimodal interactions, yet they remain hindered by fine-tuning requirements,
high computational overhead, and text-speech misalignment. Existing
speech-enabled LLMs often degrade conversational quality by modifying the LLM,
thereby compromising its linguistic capabilities. In contrast, we propose
LLMVoX, a lightweight 30M-parameter, LLM-agnostic, autoregressive streaming TTS
system that generates high-quality speech with low latency, while fully
preserving the capabilities of the base LLM. Our approach achieves a
significantly lower Word Error Rate compared to speech-enabled LLMs, while
operating at comparable latency and UTMOS score. By decoupling speech synthesis
from LLM processing via a multi-queue token streaming system, LLMVoX supports
seamless, infinite-length dialogues. Its plug-and-play design also facilitates
extension to various tasks with different backbones. Furthermore, LLMVoX
generalizes to new languages with only dataset adaptation, attaining a low
Character Error Rate on an Arabic speech task. Additionally, we have integrated
LLMVoX with a Vision-Language Model to create an omni-model with speech, text,
and vision capabilities, without requiring additional multimodal training. Our
code base and project page is available at https://mbzuai-oryx.github.io/LLMVoX .Summary
AI-Generated Summary