VoXtream2: Sintesi vocale a flusso completo con controllo dinamico della velocità di eloquio

Abstract

La sintesi vocale full-stream (TTS) per sistemi interattivi deve iniziare a parlare con un ritardo minimo, rimanendo al contempo controllabile man mano che il testo arriva in modo incrementale. Presentiamo VoXtream2, un modello TTS full-stream zero-shot con controllo dinamico della velocità di eloquio, che può essere aggiornato on-the-fly a metà frase. VoXtream2 combina un meccanismo di corrispondenza della distribuzione sugli stati di durata con una guida classifier-free tra i segnali di condizionamento per migliorare la controllabilità e la qualità della sintesi. Il mascheramento del prompt testuale (prompt-text masking) consente l'utilizzo di prompt audio senza testo, eliminando la necessità di trascrizione del prompt. Su benchmark zero-shot standard e su un set di test dedicato alla velocità di eloquio, VoXtream2 raggiunge risultati competitivi, sia oggettivi che soggettivi, rispetto ai baseline pubblici, nonostante un modello più piccolo e meno dati di addestramento. In modalità full-stream, opera 4 volte più velocemente del tempo reale con una latenza del primo pacchetto di 74 ms su una GPU consumer.

English

Full-stream text-to-speech (TTS) for interactive systems must start speaking with minimal delay while remaining controllable as text arrives incrementally. We present VoXtream2, a zero-shot full-stream TTS model with dynamic speaking-rate control that can be updated mid-utterance on the fly. VoXtream2 combines a distribution matching mechanism over duration states with classifier-free guidance across conditioning signals to improve controllability and synthesis quality. Prompt-text masking enables textless audio prompting, removing the need for prompt transcription. Across standard zero-shot benchmarks and a dedicated speaking-rate test set, VoXtream2 achieves competitive objective and subjective results against public baselines despite a smaller model and less training data. In full-stream mode, it runs 4 times faster than real time with 74 ms first-packet latency on a consumer GPU.

VoXtream2: Sintesi vocale a flusso completo con controllo dinamico della velocità di eloquio

VoXtream2: Full-stream TTS with dynamic speaking rate control

Abstract

Support