Seed-TTS: Una Familia de Modelos de Generación de Voz Versátiles y de Alta CalidadSeed-TTS: A Family of High-Quality Versatile Speech Generation Models
Presentamos Seed-TTS, una familia de modelos autoregresivos de gran escala para la conversión de texto a voz (TTS, por sus siglas en inglés) capaces de generar un habla prácticamente indistinguible de la voz humana. Seed-TTS funciona como un modelo base para la generación de voz y destaca en el aprendizaje contextual del habla, logrando un rendimiento en similitud de locutor y naturalidad que iguala al habla humana de referencia en evaluaciones tanto objetivas como subjetivas. Con ajustes específicos, alcanzamos puntuaciones subjetivas aún más altas en estas métricas. Seed-TTS ofrece una controlabilidad superior sobre diversos atributos del habla, como la emoción, y es capaz de generar un habla altamente expresiva y diversa para locutores en entornos no controlados. Además, proponemos un método de autodistilación para la factorización del habla, así como un enfoque de aprendizaje por refuerzo para mejorar la robustez del modelo, la similitud del locutor y la controlabilidad. También presentamos una variante no autoregresiva (NAR) del modelo Seed-TTS, denominada Seed-TTS_DiT, que utiliza una arquitectura completamente basada en difusión. A diferencia de los sistemas TTS basados en NAR anteriores, Seed-TTS_DiT no depende de duraciones de fonemas preestimadas y realiza la generación de voz mediante un procesamiento de extremo a extremo. Demostramos que esta variante alcanza un rendimiento comparable al de la variante basada en modelos de lenguaje y mostramos su eficacia en la edición de voz. Invitamos a los lectores a escuchar demostraciones en https://bytedancespeech.github.io/seedtts_tech_report.