ChatPaper.aiChatPaper

Rapport Technique de VibeVoice

VibeVoice Technical Report

August 26, 2025
papers.authors: Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
cs.AI

papers.abstract

Ce rapport présente VibeVoice, un nouveau modèle conçu pour synthétiser des discours de longue durée avec plusieurs locuteurs en utilisant la diffusion de tokens suivants, une méthode unifiée pour modéliser des données continues en générant de manière autoregressive des vecteurs latents via la diffusion. Pour ce faire, nous introduisons un nouveau tokeniseur de parole continue qui, comparé au modèle Encodec populaire, amliore la compression des données par un facteur de 80 tout en maintenant des performances comparables. Le tokeniseur préserve efficacement la fidélité audio tout en augmentant significativement l'efficacité computationnelle pour le traitement de longues séquences. Ainsi, VibeVoice peut synthétiser des discours de longue durée allant jusqu'à 90 minutes (dans une fenêtre contextuelle de 64K) avec un maximum de 4 locuteurs, capturant l'« ambiance » authentique des conversations et surpassant les modèles de dialogue open-source et propriétaires.
English
This report presents VibeVoice, a novel model designed to synthesize long-form speech with multiple speakers by employing next-token diffusion, which is a unified method for modeling continuous data by autoregressively generating latent vectors via diffusion. To enable this, we introduce a novel continuous speech tokenizer that, when compared to the popular Encodec model, improves data compression by 80 times while maintaining comparable performance. The tokenizer effectively preserves audio fidelity while significantly boosting computational efficiency for processing long sequences. Thus, VibeVoice can synthesize long-form speech for up to 90 minutes (in a 64K context window length) with a maximum of 4 speakers, capturing the authentic conversational ``vibe'' and surpassing open-source and proprietary dialogue models.
PDF251August 27, 2025