ChatPaper.aiChatPaper

Natürliche Sprache 3: Zero-Shot Sprachsynthese mit faktorisiertem Codec und Diffusionsmodellen

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

March 5, 2024
Autoren: Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
cs.AI

Zusammenfassung

Obwohl aktuelle groß angelegte Text-zu-Sprache (TTS) Modelle signifikante Fortschritte erzielt haben, bleiben sie immer noch hinter den Erwartungen in Bezug auf Sprachqualität, Ähnlichkeit und Prosodie zurück. Da Sprache vielfältige Merkmale (z. B. Inhalt, Prosodie, Klangfarbe und akustische Details) umfassend umfasst und somit signifikante Herausforderungen für die Generierung darstellt, liegt es nahe, die Sprache in einzelne Subräume zu faktorisieren, die verschiedene Merkmale repräsentieren und diese individuell zu generieren. Inspiriert davon schlagen wir NaturalSpeech 3 vor, ein TTS-System mit neuartigen faktorisierten Diffusionsmodellen zur Erzeugung natürlicher Sprache auf eine Zero-Shot-Art und Weise. Konkret 1) entwerfen wir einen neuronalen Codec mit faktorisiertem Vektorquantisierung (FVQ), um die Sprachwellenform in Subräume von Inhalt, Prosodie, Klangfarbe und akustischen Details zu entwirren; 2) schlagen wir ein faktorisiertes Diffusionsmodell vor, um Merkmale in jedem Subraum entsprechend der entsprechenden Eingabe zu generieren. Mit diesem Faktorisierungsdesign kann NaturalSpeech 3 die komplexe Sprache effektiv und effizient mit entwirrten Subräumen auf eine Teile-und-Herrsche-Art modellieren. Experimente zeigen, dass NaturalSpeech 3 die führenden TTS-Systeme in Bezug auf Qualität, Ähnlichkeit, Prosodie und Verständlichkeit übertrifft. Darüber hinaus erzielen wir eine bessere Leistung durch Skalierung auf 1 Milliarde Parameter und 200.000 Stunden Trainingsdaten.
English
While recent large-scale text-to-speech (TTS) models have achieved significant progress, they still fall short in speech quality, similarity, and prosody. Considering speech intricately encompasses various attributes (e.g., content, prosody, timbre, and acoustic details) that pose significant challenges for generation, a natural idea is to factorize speech into individual subspaces representing different attributes and generate them individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with novel factorized diffusion models to generate natural speech in a zero-shot way. Specifically, 1) we design a neural codec with factorized vector quantization (FVQ) to disentangle speech waveform into subspaces of content, prosody, timbre, and acoustic details; 2) we propose a factorized diffusion model to generate attributes in each subspace following its corresponding prompt. With this factorization design, NaturalSpeech 3 can effectively and efficiently model the intricate speech with disentangled subspaces in a divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the state-of-the-art TTS systems on quality, similarity, prosody, and intelligibility. Furthermore, we achieve better performance by scaling to 1B parameters and 200K hours of training data.

Summary

AI-Generated Summary

PDF383December 15, 2024