Seed-TTS: Eine Familie von hochwertigen vielseitigen Spracherzeugungsmodellen
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
June 4, 2024
Autoren: Philip Anastassiou, Jiawei Chen, Jitong Chen, Yuanzhe Chen, Zhuo Chen, Ziyi Chen, Jian Cong, Lelai Deng, Chuang Ding, Lu Gao, Mingqing Gong, Peisong Huang, Qingqing Huang, Zhiying Huang, Yuanyuan Huo, Dongya Jia, Chumin Li, Feiya Li, Hui Li, Jiaxin Li, Xiaoyang Li, Xingxing Li, Lin Liu, Shouda Liu, Sichao Liu, Xudong Liu, Yuchen Liu, Zhengxi Liu, Lu Lu, Junjie Pan, Xin Wang, Yuping Wang, Yuxuan Wang, Zhen Wei, Jian Wu, Chao Yao, Yifeng Yang, Yuanhao Yi, Junteng Zhang, Qidi Zhang, Shuo Zhang, Wenjie Zhang, Yang Zhang, Zilin Zhao, Dejian Zhong, Xiaobin Zhuang
cs.AI
Zusammenfassung
Wir stellen Seed-TTS vor, eine Familie von groß angelegten autoregressiven Text-zu-Sprache (TTS) Modellen, die in der Lage sind, Sprache zu generieren, die praktisch nicht von menschlicher Sprache zu unterscheiden ist. Seed-TTS dient als Grundlagenmodell für die Spracherzeugung und zeichnet sich durch herausragende Leistungen im Bereich des sprachlichen Kontextlernens aus, wobei es in Bezug auf Sprecherähnlichkeit und Natürlichkeit Leistungen erzielt, die menschlicher Sprache in objektiven und subjektiven Bewertungen entsprechen. Durch Feinabstimmung erzielen wir sogar höhere subjektive Bewertungen in diesen Metriken. Seed-TTS bietet eine überlegene Steuerbarkeit über verschiedene Sprachmerkmale wie Emotionen und ist in der Lage, äußerst ausdrucksstarke und vielfältige Sprache für Sprecher in freier Wildbahn zu generieren. Darüber hinaus schlagen wir eine Selbstverdichtungsmethode für die Faktorisierung von Sprache vor, sowie einen verstärkenden Lernansatz zur Verbesserung der Modellrobustheit, Sprecherähnlichkeit und Steuerbarkeit. Zusätzlich präsentieren wir eine nicht-autoregressive (NAR) Variante des Seed-TTS-Modells, namens Seed-TTS_DiT, die eine vollständig auf Diffusion basierende Architektur verwendet. Im Gegensatz zu früheren NAR-basierten TTS-Systemen ist Seed-TTS_DiT nicht auf vorab geschätzte Phonemdauern angewiesen und führt die Spracherzeugung durch End-to-End-Verarbeitung durch. Wir zeigen, dass diese Variante vergleichbare Leistungen wie die auf Sprachmodellen basierende Variante erzielt und präsentieren ihre Wirksamkeit bei der Sprachbearbeitung. Wir ermutigen die Leser, Demos unter https://bytedancespeech.github.io/seedtts_tech_report anzuhören.
English
We introduce Seed-TTS, a family of large-scale autoregressive text-to-speech
(TTS) models capable of generating speech that is virtually indistinguishable
from human speech. Seed-TTS serves as a foundation model for speech generation
and excels in speech in-context learning, achieving performance in speaker
similarity and naturalness that matches ground truth human speech in both
objective and subjective evaluations. With fine-tuning, we achieve even higher
subjective scores across these metrics. Seed-TTS offers superior
controllability over various speech attributes such as emotion and is capable
of generating highly expressive and diverse speech for speakers in the wild.
Furthermore, we propose a self-distillation method for speech factorization, as
well as a reinforcement learning approach to enhance model robustness, speaker
similarity, and controllability. We additionally present a non-autoregressive
(NAR) variant of the Seed-TTS model, named Seed-TTS_DiT, which
utilizes a fully diffusion-based architecture. Unlike previous NAR-based TTS
systems, Seed-TTS_DiT does not depend on pre-estimated phoneme
durations and performs speech generation through end-to-end processing. We
demonstrate that this variant achieves comparable performance to the language
model-based variant and showcase its effectiveness in speech editing. We
encourage readers to listen to demos at
https://bytedancespeech.github.io/seedtts_tech_report.Summary
AI-Generated Summary