Seed-TTS: Una Famiglia di Modelli Versatili per la Generazione di Voce di Alta Qualità
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
June 4, 2024
Autori: Philip Anastassiou, Jiawei Chen, Jitong Chen, Yuanzhe Chen, Zhuo Chen, Ziyi Chen, Jian Cong, Lelai Deng, Chuang Ding, Lu Gao, Mingqing Gong, Peisong Huang, Qingqing Huang, Zhiying Huang, Yuanyuan Huo, Dongya Jia, Chumin Li, Feiya Li, Hui Li, Jiaxin Li, Xiaoyang Li, Xingxing Li, Lin Liu, Shouda Liu, Sichao Liu, Xudong Liu, Yuchen Liu, Zhengxi Liu, Lu Lu, Junjie Pan, Xin Wang, Yuping Wang, Yuxuan Wang, Zhen Wei, Jian Wu, Chao Yao, Yifeng Yang, Yuanhao Yi, Junteng Zhang, Qidi Zhang, Shuo Zhang, Wenjie Zhang, Yang Zhang, Zilin Zhao, Dejian Zhong, Xiaobin Zhuang
cs.AI
Abstract
Presentiamo Seed-TTS, una famiglia di modelli autoregressivi su larga scala per la sintesi vocale (TTS) in grado di generare un parlato praticamente indistinguibile da quello umano. Seed-TTS funge da modello di base per la generazione vocale e si distingue nell'apprendimento contestuale del parlato, raggiungendo prestazioni in termini di somiglianza del parlante e naturalezza che eguagliano il parlato umano di riferimento sia in valutazioni oggettive che soggettive. Con un affinamento, otteniamo punteggi soggettivi ancora più elevati in queste metriche. Seed-TTS offre una superiore controllabilità su vari attributi vocali come l'emozione ed è in grado di generare un parlato altamente espressivo e diversificato per parlanti in contesti reali. Inoltre, proponiamo un metodo di auto-distillazione per la fattorizzazione del parlato, nonché un approccio di apprendimento per rinforzo per migliorare la robustezza del modello, la somiglianza del parlante e la controllabilità. Presentiamo inoltre una variante non autoregressiva (NAR) del modello Seed-TTS, denominata Seed-TTS_DiT, che utilizza un'architettura interamente basata sulla diffusione. A differenza dei precedenti sistemi TTS basati su NAR, Seed-TTS_DiT non dipende da durate fonematiche pre-stimate e genera il parlato attraverso un'elaborazione end-to-end. Dimostriamo che questa variante raggiunge prestazioni comparabili alla variante basata su modello linguistico e ne evidenziamo l'efficacia nell'editing vocale. Invitiamo i lettori ad ascoltare le demo disponibili su https://bytedancespeech.github.io/seedtts_tech_report.
English
We introduce Seed-TTS, a family of large-scale autoregressive text-to-speech
(TTS) models capable of generating speech that is virtually indistinguishable
from human speech. Seed-TTS serves as a foundation model for speech generation
and excels in speech in-context learning, achieving performance in speaker
similarity and naturalness that matches ground truth human speech in both
objective and subjective evaluations. With fine-tuning, we achieve even higher
subjective scores across these metrics. Seed-TTS offers superior
controllability over various speech attributes such as emotion and is capable
of generating highly expressive and diverse speech for speakers in the wild.
Furthermore, we propose a self-distillation method for speech factorization, as
well as a reinforcement learning approach to enhance model robustness, speaker
similarity, and controllability. We additionally present a non-autoregressive
(NAR) variant of the Seed-TTS model, named Seed-TTS_DiT, which
utilizes a fully diffusion-based architecture. Unlike previous NAR-based TTS
systems, Seed-TTS_DiT does not depend on pre-estimated phoneme
durations and performs speech generation through end-to-end processing. We
demonstrate that this variant achieves comparable performance to the language
model-based variant and showcase its effectiveness in speech editing. We
encourage readers to listen to demos at
https://bytedancespeech.github.io/seedtts_tech_report.