Natürliche Sprache 3: Zero-Shot Sprachsynthese mit faktorisiertem Codec und DiffusionsmodellenNaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and
Diffusion Models
Obwohl aktuelle groß angelegte Text-zu-Sprache (TTS) Modelle signifikante Fortschritte erzielt haben, bleiben sie immer noch hinter den Erwartungen in Bezug auf Sprachqualität, Ähnlichkeit und Prosodie zurück. Da Sprache vielfältige Merkmale (z. B. Inhalt, Prosodie, Klangfarbe und akustische Details) umfassend umfasst und somit signifikante Herausforderungen für die Generierung darstellt, liegt es nahe, die Sprache in einzelne Subräume zu faktorisieren, die verschiedene Merkmale repräsentieren und diese individuell zu generieren. Inspiriert davon schlagen wir NaturalSpeech 3 vor, ein TTS-System mit neuartigen faktorisierten Diffusionsmodellen zur Erzeugung natürlicher Sprache auf eine Zero-Shot-Art und Weise. Konkret 1) entwerfen wir einen neuronalen Codec mit faktorisiertem Vektorquantisierung (FVQ), um die Sprachwellenform in Subräume von Inhalt, Prosodie, Klangfarbe und akustischen Details zu entwirren; 2) schlagen wir ein faktorisiertes Diffusionsmodell vor, um Merkmale in jedem Subraum entsprechend der entsprechenden Eingabe zu generieren. Mit diesem Faktorisierungsdesign kann NaturalSpeech 3 die komplexe Sprache effektiv und effizient mit entwirrten Subräumen auf eine Teile-und-Herrsche-Art modellieren. Experimente zeigen, dass NaturalSpeech 3 die führenden TTS-Systeme in Bezug auf Qualität, Ähnlichkeit, Prosodie und Verständlichkeit übertrifft. Darüber hinaus erzielen wir eine bessere Leistung durch Skalierung auf 1 Milliarde Parameter und 200.000 Stunden Trainingsdaten.