VoXtream2: Полнострочный TTS с динамическим управлением темпом речи
VoXtream2: Full-stream TTS with dynamic speaking rate control
March 13, 2026
Авторы: Nikita Torgashov, Gustav Eje Henter, Gabriel Skantze
cs.AI
Аннотация
Полно-потоковое преобразование текста в речь (TTS) для интерактивных систем должно начинать воспроизведение с минимальной задержкой, сохраняя при этом управляемость по мере поступления текста. Мы представляем VoXtream2 — zero-shot полно-потоковую TTS-модель с динамическим контролем скорости речи, которую можно обновлять на лету в середине высказывания. VoXtream2 сочетает механизм согласования распределений по состояниям длительностей с классификатор-фри гайденсом по условным сигналам для улучшения управляемости и качества синтеза. Маскирование промпт-текста позволяет использовать аудиопромпты без текста, устраняя необходимость в транскрипции промптов. На стандартных zero-shot бенчмарках и специализированном наборе данных для тестирования скорости речи VoXtream2 демонстрирует конкурентоспособные объективные и субъективные результаты по сравнению с публичными базовыми моделями, несмотря на меньший размер модели и объем обучающих данных. В полно-потоковом режиме модель работает в 4 раза быстрее реального времени с задержкой до первого пакета в 74 мс на потребительском GPU.
English
Full-stream text-to-speech (TTS) for interactive systems must start speaking with minimal delay while remaining controllable as text arrives incrementally. We present VoXtream2, a zero-shot full-stream TTS model with dynamic speaking-rate control that can be updated mid-utterance on the fly. VoXtream2 combines a distribution matching mechanism over duration states with classifier-free guidance across conditioning signals to improve controllability and synthesis quality. Prompt-text masking enables textless audio prompting, removing the need for prompt transcription. Across standard zero-shot benchmarks and a dedicated speaking-rate test set, VoXtream2 achieves competitive objective and subjective results against public baselines despite a smaller model and less training data. In full-stream mode, it runs 4 times faster than real time with 74 ms first-packet latency on a consumer GPU.