VibeVoice Technisch Rapport

Samenvatting

Dit rapport presenteert VibeVoice, een nieuw model dat is ontworpen om langdurige spraak met meerdere sprekers te synthetiseren door gebruik te maken van next-token diffusie, een uniforme methode voor het modelleren van continue gegevens door middel van autoregressieve generatie van latente vectoren via diffusie. Om dit mogelijk te maken, introduceren we een nieuwe continue spraak-tokenizer die, in vergelijking met het populaire Encodec-model, de datacompressie met 80 keer verbetert terwijl vergelijkbare prestaties worden behouden. De tokenizer behoudt effectief de audiofideliteit terwijl de computationele efficiëntie voor het verwerken van lange sequenties aanzienlijk wordt verbeterd. Hierdoor kan VibeVoice langdurige spraak synthetiseren van maximaal 90 minuten (in een contextvensterlengte van 64K) met maximaal 4 sprekers, waarbij het authentieke gespreksgevoel wordt vastgelegd en open-source en propriëtaire dialoogmodellen worden overtroffen.

English

This report presents VibeVoice, a novel model designed to synthesize long-form speech with multiple speakers by employing next-token diffusion, which is a unified method for modeling continuous data by autoregressively generating latent vectors via diffusion. To enable this, we introduce a novel continuous speech tokenizer that, when compared to the popular Encodec model, improves data compression by 80 times while maintaining comparable performance. The tokenizer effectively preserves audio fidelity while significantly boosting computational efficiency for processing long sequences. Thus, VibeVoice can synthesize long-form speech for up to 90 minutes (in a 64K context window length) with a maximum of 4 speakers, capturing the authentic conversational ``vibe'' and surpassing open-source and proprietary dialogue models.

VibeVoice Technisch Rapport

VibeVoice Technical Report

Samenvatting

Support