Relatório Técnico do VibeVoice

Resumo

Este relatório apresenta o VibeVoice, um modelo inovador projetado para sintetizar fala de longa duração com múltiplos falantes, utilizando a difusão de próximo token, um método unificado para modelar dados contínuos por meio da geração autoregressiva de vetores latentes via difusão. Para viabilizar isso, introduzimos um novo tokenizador de fala contínua que, em comparação com o popular modelo Encodec, melhora a compressão de dados em 80 vezes enquanto mantém um desempenho comparável. O tokenizador preserva efetivamente a fidelidade do áudio e aumenta significativamente a eficiência computacional no processamento de sequências longas. Assim, o VibeVoice é capaz de sintetizar fala de longa duração por até 90 minutos (em uma janela de contexto de 64K) com um máximo de 4 falantes, capturando o "vibe" autêntico da conversação e superando modelos de diálogo tanto de código aberto quanto proprietários.

English

This report presents VibeVoice, a novel model designed to synthesize long-form speech with multiple speakers by employing next-token diffusion, which is a unified method for modeling continuous data by autoregressively generating latent vectors via diffusion. To enable this, we introduce a novel continuous speech tokenizer that, when compared to the popular Encodec model, improves data compression by 80 times while maintaining comparable performance. The tokenizer effectively preserves audio fidelity while significantly boosting computational efficiency for processing long sequences. Thus, VibeVoice can synthesize long-form speech for up to 90 minutes (in a 64K context window length) with a maximum of 4 speakers, capturing the authentic conversational ``vibe'' and surpassing open-source and proprietary dialogue models.

Relatório Técnico do VibeVoice

VibeVoice Technical Report

Resumo

Support