ChatPaper.aiChatPaper

Seed-TTS: Een Familie van Hoogwaardige, Veelzijdige Spraakgeneratiemodellen

Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

June 4, 2024
Auteurs: Philip Anastassiou, Jiawei Chen, Jitong Chen, Yuanzhe Chen, Zhuo Chen, Ziyi Chen, Jian Cong, Lelai Deng, Chuang Ding, Lu Gao, Mingqing Gong, Peisong Huang, Qingqing Huang, Zhiying Huang, Yuanyuan Huo, Dongya Jia, Chumin Li, Feiya Li, Hui Li, Jiaxin Li, Xiaoyang Li, Xingxing Li, Lin Liu, Shouda Liu, Sichao Liu, Xudong Liu, Yuchen Liu, Zhengxi Liu, Lu Lu, Junjie Pan, Xin Wang, Yuping Wang, Yuxuan Wang, Zhen Wei, Jian Wu, Chao Yao, Yifeng Yang, Yuanhao Yi, Junteng Zhang, Qidi Zhang, Shuo Zhang, Wenjie Zhang, Yang Zhang, Zilin Zhao, Dejian Zhong, Xiaobin Zhuang
cs.AI

Samenvatting

We introduceren Seed-TTS, een familie van grootschalige autoregressieve tekst-naar-spraak (TTS) modellen die spraak kunnen genereren die vrijwel niet te onderscheiden is van menselijke spraak. Seed-TTS fungeert als een fundamenteel model voor spraakgeneratie en blinkt uit in spraak-in-context leren, waarbij het prestaties bereikt op het gebied van spreker-gelijkenis en natuurlijkheid die overeenkomen met echte menselijke spraak in zowel objectieve als subjectieve evaluaties. Met fine-tuning behalen we nog hogere subjectieve scores op deze metrieken. Seed-TTS biedt superieure beheersbaarheid over verschillende spraakkenmerken zoals emotie en is in staat om zeer expressieve en diverse spraak te genereren voor sprekers in het wild. Daarnaast stellen we een zelf-distillatiemethode voor voor spraakfactorisatie, evenals een reinforcement learning-benadering om de robuustheid, spreker-gelijkenis en beheersbaarheid van het model te verbeteren. We presenteren ook een niet-autoregressieve (NAR) variant van het Seed-TTS model, genaamd Seed-TTS_DiT, dat een volledig op diffusie gebaseerde architectuur gebruikt. In tegenstelling tot eerdere NAR-gebaseerde TTS-systemen, is Seed-TTS_DiT niet afhankelijk van vooraf geschatte foneemduur en voert het spraakgeneratie uit via end-to-end verwerking. We tonen aan dat deze variant vergelijkbare prestaties behaalt als de op taalmodel gebaseerde variant en demonstreren de effectiviteit ervan in spraakbewerking. We moedigen lezers aan om naar de demo's te luisteren op https://bytedancespeech.github.io/seedtts_tech_report.
English
We introduce Seed-TTS, a family of large-scale autoregressive text-to-speech (TTS) models capable of generating speech that is virtually indistinguishable from human speech. Seed-TTS serves as a foundation model for speech generation and excels in speech in-context learning, achieving performance in speaker similarity and naturalness that matches ground truth human speech in both objective and subjective evaluations. With fine-tuning, we achieve even higher subjective scores across these metrics. Seed-TTS offers superior controllability over various speech attributes such as emotion and is capable of generating highly expressive and diverse speech for speakers in the wild. Furthermore, we propose a self-distillation method for speech factorization, as well as a reinforcement learning approach to enhance model robustness, speaker similarity, and controllability. We additionally present a non-autoregressive (NAR) variant of the Seed-TTS model, named Seed-TTS_DiT, which utilizes a fully diffusion-based architecture. Unlike previous NAR-based TTS systems, Seed-TTS_DiT does not depend on pre-estimated phoneme durations and performs speech generation through end-to-end processing. We demonstrate that this variant achieves comparable performance to the language model-based variant and showcase its effectiveness in speech editing. We encourage readers to listen to demos at https://bytedancespeech.github.io/seedtts_tech_report.
PDF382February 8, 2026