VoXtream2 : Synthèse vocale en flux continu avec contrôle dynamique du débit d'élocution

Résumé

La synthèse vocale en flux continu (TTS) pour les systèmes interactifs doit commencer à parler avec un délai minimal tout en restant contrôlable au fur et à mesure que le texte arrive de manière incrémentielle. Nous présentons VoXtream2, un modèle TTS en flux continu à zéro-shot avec contrôle dynamique du débit d'élocution pouvant être mis à jour à mi-énoncé en temps réel. VoXtream2 combine un mécanisme d'appariement de distribution sur les états de durée avec un guidage sans classifieur à travers les signaux de conditionnement pour améliorer la contrôlabilité et la qualité de synthèse. Le masquage du texte d'amorçage permet un amorçage audio sans texte, éliminant le besoin de transcription de l'amorce. Sur des benchmarks standards en zéro-shot et un ensemble de test dédié au débit d'élocution, VoXtream2 obtient des résultats objectifs et subjectifs compétitifs par rapport aux bases de référence publiques, malgré un modèle plus petit et moins de données d'entraînement. En mode flux continu, il fonctionne 4 fois plus vite que le temps réel avec une latence du premier paquet de 74 ms sur un GPU grand public.

English

Full-stream text-to-speech (TTS) for interactive systems must start speaking with minimal delay while remaining controllable as text arrives incrementally. We present VoXtream2, a zero-shot full-stream TTS model with dynamic speaking-rate control that can be updated mid-utterance on the fly. VoXtream2 combines a distribution matching mechanism over duration states with classifier-free guidance across conditioning signals to improve controllability and synthesis quality. Prompt-text masking enables textless audio prompting, removing the need for prompt transcription. Across standard zero-shot benchmarks and a dedicated speaking-rate test set, VoXtream2 achieves competitive objective and subjective results against public baselines despite a smaller model and less training data. In full-stream mode, it runs 4 times faster than real time with 74 ms first-packet latency on a consumer GPU.

VoXtream2 : Synthèse vocale en flux continu avec contrôle dynamique du débit d'élocution

VoXtream2: Full-stream TTS with dynamic speaking rate control

Résumé

Support