Seed-TTS: Eine Familie von hochwertigen vielseitigen SpracherzeugungsmodellenSeed-TTS: A Family of High-Quality Versatile Speech Generation Models
Wir stellen Seed-TTS vor, eine Familie von groß angelegten autoregressiven Text-zu-Sprache (TTS) Modellen, die in der Lage sind, Sprache zu generieren, die praktisch nicht von menschlicher Sprache zu unterscheiden ist. Seed-TTS dient als Grundlagenmodell für die Spracherzeugung und zeichnet sich durch herausragende Leistungen im Bereich des sprachlichen Kontextlernens aus, wobei es in Bezug auf Sprecherähnlichkeit und Natürlichkeit Leistungen erzielt, die menschlicher Sprache in objektiven und subjektiven Bewertungen entsprechen. Durch Feinabstimmung erzielen wir sogar höhere subjektive Bewertungen in diesen Metriken. Seed-TTS bietet eine überlegene Steuerbarkeit über verschiedene Sprachmerkmale wie Emotionen und ist in der Lage, äußerst ausdrucksstarke und vielfältige Sprache für Sprecher in freier Wildbahn zu generieren. Darüber hinaus schlagen wir eine Selbstverdichtungsmethode für die Faktorisierung von Sprache vor, sowie einen verstärkenden Lernansatz zur Verbesserung der Modellrobustheit, Sprecherähnlichkeit und Steuerbarkeit. Zusätzlich präsentieren wir eine nicht-autoregressive (NAR) Variante des Seed-TTS-Modells, namens Seed-TTS_DiT, die eine vollständig auf Diffusion basierende Architektur verwendet. Im Gegensatz zu früheren NAR-basierten TTS-Systemen ist Seed-TTS_DiT nicht auf vorab geschätzte Phonemdauern angewiesen und führt die Spracherzeugung durch End-to-End-Verarbeitung durch. Wir zeigen, dass diese Variante vergleichbare Leistungen wie die auf Sprachmodellen basierende Variante erzielt und präsentieren ihre Wirksamkeit bei der Sprachbearbeitung. Wir ermutigen die Leser, Demos unter https://bytedancespeech.github.io/seedtts_tech_report anzuhören.