Seed-TTS : Une famille de modèles de génération de parole polyvalents et de haute qualitéSeed-TTS: A Family of High-Quality Versatile Speech Generation Models
Nous présentons Seed-TTS, une famille de modèles de synthèse vocale (TTS) autoregressifs à grande échelle capables de générer une parole pratiquement indiscernable de la parole humaine. Seed-TTS sert de modèle de base pour la génération de parole et excelle dans l'apprentissage contextuel de la parole, atteignant des performances en termes de similarité du locuteur et de naturel qui rivalisent avec la parole humaine de référence dans des évaluations objectives et subjectives. Avec un ajustement fin, nous obtenons des scores subjectifs encore plus élevés sur ces métriques. Seed-TTS offre une contrôlabilité supérieure sur divers attributs de la parole tels que l'émotion et est capable de générer une parole hautement expressive et diversifiée pour des locuteurs en conditions réelles. De plus, nous proposons une méthode d'auto-distillation pour la factorisation de la parole, ainsi qu'une approche d'apprentissage par renforcement pour améliorer la robustesse du modèle, la similarité du locuteur et la contrôlabilité. Nous présentons également une variante non autoregressive (NAR) du modèle Seed-TTS, nommée Seed-TTS_DiT, qui utilise une architecture entièrement basée sur la diffusion. Contrairement aux systèmes TTS NAR précédents, Seed-TTS_DiT ne dépend pas de durées de phonèmes pré-estimées et effectue la génération de parole via un traitement de bout en bout. Nous démontrons que cette variante atteint des performances comparables à la variante basée sur un modèle de langage et mettons en avant son efficacité dans l'édition de la parole. Nous encourageons les lecteurs à écouter les démonstrations sur https://bytedancespeech.github.io/seedtts_tech_report.