VoXtream2: Síntese de fala de fluxo completo com controle dinâmico de velocidade de fala
VoXtream2: Full-stream TTS with dynamic speaking rate control
March 13, 2026
Autores: Nikita Torgashov, Gustav Eje Henter, Gabriel Skantze
cs.AI
Resumo
A síntese de fala em tempo real (TTS) para sistemas interativos deve iniciar a fala com atraso mínimo, mantendo-se controlável à medida que o texto chega incrementalmente. Apresentamos o VoXtream2, um modelo TTS de fluxo completo *zero-shot* com controle dinâmico de velocidade de fala que pode ser atualizado no meio de um enunciado e em tempo real. O VoXtream2 combina um mecanismo de correspondência de distribuição sobre estados de duração com orientação *classifier-free* entre sinais de condicionamento para melhorar a controlabilidade e a qualidade da síntese. O mascaramento de texto de prompt permite *prompting* de áudio sem texto, eliminando a necessidade de transcrição do prompt. Em benchmarks *zero-shot* padrão e num conjunto de testes dedicado à velocidade de fala, o VoXtream2 alcança resultados objetivos e subjetivos competitivos em relação às linhas de base públicas, apesar de ter um modelo menor e menos dados de treinamento. No modo de fluxo completo, executa 4 vezes mais rápido que o tempo real, com uma latência do primeiro pacote de 74 ms numa GPU de consumo.
English
Full-stream text-to-speech (TTS) for interactive systems must start speaking with minimal delay while remaining controllable as text arrives incrementally. We present VoXtream2, a zero-shot full-stream TTS model with dynamic speaking-rate control that can be updated mid-utterance on the fly. VoXtream2 combines a distribution matching mechanism over duration states with classifier-free guidance across conditioning signals to improve controllability and synthesis quality. Prompt-text masking enables textless audio prompting, removing the need for prompt transcription. Across standard zero-shot benchmarks and a dedicated speaking-rate test set, VoXtream2 achieves competitive objective and subjective results against public baselines despite a smaller model and less training data. In full-stream mode, it runs 4 times faster than real time with 74 ms first-packet latency on a consumer GPU.