Технический отчет VibeVoice
VibeVoice Technical Report
August 26, 2025
Авторы: Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
cs.AI
Аннотация
В данном отчете представлена модель VibeVoice, разработанная для синтеза длинных речевых фрагментов с участием нескольких говорящих с использованием метода next-token diffusion — унифицированного подхода к моделированию непрерывных данных путем авторегрессивной генерации латентных векторов через диффузию. Для реализации этого мы предлагаем новый непрерывный токенизатор речи, который, по сравнению с популярной моделью Encodec, улучшает сжатие данных в 80 раз при сохранении сопоставимой производительности. Токенизатор эффективно сохраняет качество звука, значительно повышая вычислительную эффективность при обработке длинных последовательностей. Таким образом, VibeVoice способен синтезировать длинные речевые фрагменты продолжительностью до 90 минут (в контекстном окне длиной 64K) с участием до 4 говорящих, передавая аутентичную атмосферу диалога и превосходя как открытые, так и проприетарные модели диалогов.
English
This report presents VibeVoice, a novel model designed to synthesize
long-form speech with multiple speakers by employing next-token diffusion,
which is a unified method for modeling continuous data by autoregressively
generating latent vectors via diffusion. To enable this, we introduce a novel
continuous speech tokenizer that, when compared to the popular Encodec model,
improves data compression by 80 times while maintaining comparable performance.
The tokenizer effectively preserves audio fidelity while significantly boosting
computational efficiency for processing long sequences. Thus, VibeVoice can
synthesize long-form speech for up to 90 minutes (in a 64K context window
length) with a maximum of 4 speakers, capturing the authentic conversational
``vibe'' and surpassing open-source and proprietary dialogue models.