Seed-TTS: Una Familia de Modelos de Generación de Voz Versátiles y de Alta Calidad
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
June 4, 2024
Autores: Philip Anastassiou, Jiawei Chen, Jitong Chen, Yuanzhe Chen, Zhuo Chen, Ziyi Chen, Jian Cong, Lelai Deng, Chuang Ding, Lu Gao, Mingqing Gong, Peisong Huang, Qingqing Huang, Zhiying Huang, Yuanyuan Huo, Dongya Jia, Chumin Li, Feiya Li, Hui Li, Jiaxin Li, Xiaoyang Li, Xingxing Li, Lin Liu, Shouda Liu, Sichao Liu, Xudong Liu, Yuchen Liu, Zhengxi Liu, Lu Lu, Junjie Pan, Xin Wang, Yuping Wang, Yuxuan Wang, Zhen Wei, Jian Wu, Chao Yao, Yifeng Yang, Yuanhao Yi, Junteng Zhang, Qidi Zhang, Shuo Zhang, Wenjie Zhang, Yang Zhang, Zilin Zhao, Dejian Zhong, Xiaobin Zhuang
cs.AI
Resumen
Presentamos Seed-TTS, una familia de modelos autoregresivos de gran escala para la conversión de texto a voz (TTS, por sus siglas en inglés) capaces de generar un habla prácticamente indistinguible de la voz humana. Seed-TTS funciona como un modelo base para la generación de voz y destaca en el aprendizaje contextual del habla, logrando un rendimiento en similitud de locutor y naturalidad que iguala al habla humana de referencia en evaluaciones tanto objetivas como subjetivas. Con ajustes específicos, alcanzamos puntuaciones subjetivas aún más altas en estas métricas. Seed-TTS ofrece una controlabilidad superior sobre diversos atributos del habla, como la emoción, y es capaz de generar un habla altamente expresiva y diversa para locutores en entornos no controlados. Además, proponemos un método de autodistilación para la factorización del habla, así como un enfoque de aprendizaje por refuerzo para mejorar la robustez del modelo, la similitud del locutor y la controlabilidad. También presentamos una variante no autoregresiva (NAR) del modelo Seed-TTS, denominada Seed-TTS_DiT, que utiliza una arquitectura completamente basada en difusión. A diferencia de los sistemas TTS basados en NAR anteriores, Seed-TTS_DiT no depende de duraciones de fonemas preestimadas y realiza la generación de voz mediante un procesamiento de extremo a extremo. Demostramos que esta variante alcanza un rendimiento comparable al de la variante basada en modelos de lenguaje y mostramos su eficacia en la edición de voz. Invitamos a los lectores a escuchar demostraciones en https://bytedancespeech.github.io/seedtts_tech_report.
English
We introduce Seed-TTS, a family of large-scale autoregressive text-to-speech
(TTS) models capable of generating speech that is virtually indistinguishable
from human speech. Seed-TTS serves as a foundation model for speech generation
and excels in speech in-context learning, achieving performance in speaker
similarity and naturalness that matches ground truth human speech in both
objective and subjective evaluations. With fine-tuning, we achieve even higher
subjective scores across these metrics. Seed-TTS offers superior
controllability over various speech attributes such as emotion and is capable
of generating highly expressive and diverse speech for speakers in the wild.
Furthermore, we propose a self-distillation method for speech factorization, as
well as a reinforcement learning approach to enhance model robustness, speaker
similarity, and controllability. We additionally present a non-autoregressive
(NAR) variant of the Seed-TTS model, named Seed-TTS_DiT, which
utilizes a fully diffusion-based architecture. Unlike previous NAR-based TTS
systems, Seed-TTS_DiT does not depend on pre-estimated phoneme
durations and performs speech generation through end-to-end processing. We
demonstrate that this variant achieves comparable performance to the language
model-based variant and showcase its effectiveness in speech editing. We
encourage readers to listen to demos at
https://bytedancespeech.github.io/seedtts_tech_report.Summary
AI-Generated Summary