Relatório Técnico do VibeVoice
VibeVoice Technical Report
August 26, 2025
Autores: Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
cs.AI
Resumo
Este relatório apresenta o VibeVoice, um modelo inovador projetado para sintetizar fala de longa duração com múltiplos falantes, utilizando a difusão de próximo token, um método unificado para modelar dados contínuos por meio da geração autoregressiva de vetores latentes via difusão. Para viabilizar isso, introduzimos um novo tokenizador de fala contínua que, em comparação com o popular modelo Encodec, melhora a compressão de dados em 80 vezes enquanto mantém um desempenho comparável. O tokenizador preserva efetivamente a fidelidade do áudio e aumenta significativamente a eficiência computacional no processamento de sequências longas. Assim, o VibeVoice é capaz de sintetizar fala de longa duração por até 90 minutos (em uma janela de contexto de 64K) com um máximo de 4 falantes, capturando o "vibe" autêntico da conversação e superando modelos de diálogo tanto de código aberto quanto proprietários.
English
This report presents VibeVoice, a novel model designed to synthesize
long-form speech with multiple speakers by employing next-token diffusion,
which is a unified method for modeling continuous data by autoregressively
generating latent vectors via diffusion. To enable this, we introduce a novel
continuous speech tokenizer that, when compared to the popular Encodec model,
improves data compression by 80 times while maintaining comparable performance.
The tokenizer effectively preserves audio fidelity while significantly boosting
computational efficiency for processing long sequences. Thus, VibeVoice can
synthesize long-form speech for up to 90 minutes (in a 64K context window
length) with a maximum of 4 speakers, capturing the authentic conversational
``vibe'' and surpassing open-source and proprietary dialogue models.