VoXtream2: Síntesis de voz de flujo completo con control dinámico de velocidad de habla

Resumen

La síntesis de voz de flujo completo (TTS) para sistemas interactivos debe comenzar a hablar con una latencia mínima, manteniendo la capacidad de control a medida que el texto llega de forma incremental. Presentamos VoXtream2, un modelo TTS de flujo completo de cero-shot con control dinámico de la velocidad del habla que puede actualizarse sobre la marcha a mitad de una expresión. VoXtream2 combina un mecanismo de correspondencia de distribuciones sobre estados de duración con una guía libre de clasificadores a través de señales de condicionamiento para mejorar la controlabilidad y la calidad de la síntesis. El enmascaramiento de texto de prompt permite la incitación con audio sin texto, eliminando la necesidad de transcripción del prompt. En benchmarks estándar de cero-shot y un conjunto de pruebas dedicado a la velocidad del habla, VoXtream2 logra resultados objetivos y subjetivos competitivos frente a líneas de base públicas, a pesar de tener un modelo más pequeño y menos datos de entrenamiento. En modo de flujo completo, funciona 4 veces más rápido que el tiempo real con una latencia del primer paquete de 74 ms en una GPU de consumo.

English

Full-stream text-to-speech (TTS) for interactive systems must start speaking with minimal delay while remaining controllable as text arrives incrementally. We present VoXtream2, a zero-shot full-stream TTS model with dynamic speaking-rate control that can be updated mid-utterance on the fly. VoXtream2 combines a distribution matching mechanism over duration states with classifier-free guidance across conditioning signals to improve controllability and synthesis quality. Prompt-text masking enables textless audio prompting, removing the need for prompt transcription. Across standard zero-shot benchmarks and a dedicated speaking-rate test set, VoXtream2 achieves competitive objective and subjective results against public baselines despite a smaller model and less training data. In full-stream mode, it runs 4 times faster than real time with 74 ms first-packet latency on a consumer GPU.

VoXtream2: Síntesis de voz de flujo completo con control dinámico de velocidad de habla

VoXtream2: Full-stream TTS with dynamic speaking rate control

Resumen

Support