ChatPaper.aiChatPaper

VoXtream2: Volledige-stroom TTS met dynamische spreeksnelheidsregeling

VoXtream2: Full-stream TTS with dynamic speaking rate control

March 13, 2026
Auteurs: Nikita Torgashov, Gustav Eje Henter, Gabriel Skantze
cs.AI

Samenvatting

Volledig-streamende tekst-naar-spraak (TTS) voor interactieve systemen moet met minimale vertraging beginnen met spreken, terwijl het beheersbaar blijft terwijl de tekst incrementeel binnenkomt. Wij presenteren VoXtream2, een zero-shot volledig-streamend TTS-model met dynamische spreeksnelheidsregeling die midden in een uiting real-time kan worden bijgewerkt. VoXtream2 combineert een distributie-matchingmechanisme over duurtoestanden met classifier-free guidance voor conditioneringssignalen om de beheersbaarheid en synthesekwaliteit te verbeteren. Prompt-tekstmaskering maakt tekstloze audio-prompting mogelijk, waardoor transcriptie van de prompt overbodig wordt. Op standaard zero-shot benchmarks en een toegewijd spreeksnelheid-testset behaalt VoXtream2 competitieve objectieve en subjectieve resultaten ten opzichte van publieke baseline-modellen, ondanks een kleiner model en minder trainingsdata. In de volledig-streamende modus werkt het 4 keer sneller dan real-time met een eerste-pakketvertraging van 74 ms op een consumenten-GPU.
English
Full-stream text-to-speech (TTS) for interactive systems must start speaking with minimal delay while remaining controllable as text arrives incrementally. We present VoXtream2, a zero-shot full-stream TTS model with dynamic speaking-rate control that can be updated mid-utterance on the fly. VoXtream2 combines a distribution matching mechanism over duration states with classifier-free guidance across conditioning signals to improve controllability and synthesis quality. Prompt-text masking enables textless audio prompting, removing the need for prompt transcription. Across standard zero-shot benchmarks and a dedicated speaking-rate test set, VoXtream2 achieves competitive objective and subjective results against public baselines despite a smaller model and less training data. In full-stream mode, it runs 4 times faster than real time with 74 ms first-packet latency on a consumer GPU.
PDF12March 24, 2026