Seed-TTS : Une famille de modèles de génération de parole polyvalents et de haute qualité
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
June 4, 2024
Auteurs: Philip Anastassiou, Jiawei Chen, Jitong Chen, Yuanzhe Chen, Zhuo Chen, Ziyi Chen, Jian Cong, Lelai Deng, Chuang Ding, Lu Gao, Mingqing Gong, Peisong Huang, Qingqing Huang, Zhiying Huang, Yuanyuan Huo, Dongya Jia, Chumin Li, Feiya Li, Hui Li, Jiaxin Li, Xiaoyang Li, Xingxing Li, Lin Liu, Shouda Liu, Sichao Liu, Xudong Liu, Yuchen Liu, Zhengxi Liu, Lu Lu, Junjie Pan, Xin Wang, Yuping Wang, Yuxuan Wang, Zhen Wei, Jian Wu, Chao Yao, Yifeng Yang, Yuanhao Yi, Junteng Zhang, Qidi Zhang, Shuo Zhang, Wenjie Zhang, Yang Zhang, Zilin Zhao, Dejian Zhong, Xiaobin Zhuang
cs.AI
Résumé
Nous présentons Seed-TTS, une famille de modèles de synthèse vocale (TTS) autoregressifs à grande échelle capables de générer une parole pratiquement indiscernable de la parole humaine. Seed-TTS sert de modèle de base pour la génération de parole et excelle dans l'apprentissage contextuel de la parole, atteignant des performances en termes de similarité du locuteur et de naturel qui rivalisent avec la parole humaine de référence dans des évaluations objectives et subjectives. Avec un ajustement fin, nous obtenons des scores subjectifs encore plus élevés sur ces métriques. Seed-TTS offre une contrôlabilité supérieure sur divers attributs de la parole tels que l'émotion et est capable de générer une parole hautement expressive et diversifiée pour des locuteurs en conditions réelles. De plus, nous proposons une méthode d'auto-distillation pour la factorisation de la parole, ainsi qu'une approche d'apprentissage par renforcement pour améliorer la robustesse du modèle, la similarité du locuteur et la contrôlabilité. Nous présentons également une variante non autoregressive (NAR) du modèle Seed-TTS, nommée Seed-TTS_DiT, qui utilise une architecture entièrement basée sur la diffusion. Contrairement aux systèmes TTS NAR précédents, Seed-TTS_DiT ne dépend pas de durées de phonèmes pré-estimées et effectue la génération de parole via un traitement de bout en bout. Nous démontrons que cette variante atteint des performances comparables à la variante basée sur un modèle de langage et mettons en avant son efficacité dans l'édition de la parole. Nous encourageons les lecteurs à écouter les démonstrations sur https://bytedancespeech.github.io/seedtts_tech_report.
English
We introduce Seed-TTS, a family of large-scale autoregressive text-to-speech
(TTS) models capable of generating speech that is virtually indistinguishable
from human speech. Seed-TTS serves as a foundation model for speech generation
and excels in speech in-context learning, achieving performance in speaker
similarity and naturalness that matches ground truth human speech in both
objective and subjective evaluations. With fine-tuning, we achieve even higher
subjective scores across these metrics. Seed-TTS offers superior
controllability over various speech attributes such as emotion and is capable
of generating highly expressive and diverse speech for speakers in the wild.
Furthermore, we propose a self-distillation method for speech factorization, as
well as a reinforcement learning approach to enhance model robustness, speaker
similarity, and controllability. We additionally present a non-autoregressive
(NAR) variant of the Seed-TTS model, named Seed-TTS_DiT, which
utilizes a fully diffusion-based architecture. Unlike previous NAR-based TTS
systems, Seed-TTS_DiT does not depend on pre-estimated phoneme
durations and performs speech generation through end-to-end processing. We
demonstrate that this variant achieves comparable performance to the language
model-based variant and showcase its effectiveness in speech editing. We
encourage readers to listen to demos at
https://bytedancespeech.github.io/seedtts_tech_report.Summary
AI-Generated Summary