VibeVoice Technischer BerichtVibeVoice Technical Report
Dieser Bericht stellt VibeVoice vor, ein neuartiges Modell, das darauf ausgelegt ist, langformatige Sprache mit mehreren Sprechern zu synthetisieren, indem es Next-Token-Diffusion verwendet, eine einheitliche Methode zur Modellierung kontinuierlicher Daten durch autoregressives Generieren latenter Vektoren mittels Diffusion. Um dies zu ermöglichen, führen wir einen neuartigen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zum populären Encodec-Modell die Datenkompression um das 80-fache verbessert, bei gleichbleibender Leistung. Der Tokenizer bewahrt effektiv die Audioqualität, während er die Recheneffizienz für die Verarbeitung langer Sequenzen erheblich steigert. Somit kann VibeVoice langformatige Sprache von bis zu 90 Minuten (in einem 64K-Kontextfenster) mit maximal 4 Sprechern synthetisieren, den authentischen Gesprächs-„Vibe“ einfangen und sowohl Open-Source- als auch proprietäre Dialogmodelle übertreffen.