NaturalSpeech 3: Síntesis de Voz Zero-Shot con Codec Factorizado y Modelos de DifusiónNaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and
Diffusion Models
Si bien los modelos recientes de texto a voz (TTS) a gran escala han logrado avances significativos, aún presentan deficiencias en la calidad del habla, la similitud y la prosodia. Dado que el habla abarca intrincadamente diversos atributos (por ejemplo, contenido, prosodia, timbre y detalles acústicos) que plantean desafíos importantes para la generación, una idea natural es factorizar el habla en subespacios individuales que representen diferentes atributos y generarlos de manera individual. Motivados por esto, proponemos NaturalSpeech 3, un sistema TTS con modelos de difusión factorizados novedosos para generar habla natural de manera zero-shot. Específicamente, 1) diseñamos un códec neuronal con cuantización vectorial factorizada (FVQ) para desentrelazar la forma de onda del habla en subespacios de contenido, prosodia, timbre y detalles acústicos; 2) proponemos un modelo de difusión factorizado para generar atributos en cada subespacio siguiendo su prompt correspondiente. Con este diseño de factorización, NaturalSpeech 3 puede modelar de manera efectiva y eficiente el habla intrincada con subespacios desentrelazados en un enfoque de divide y vencerás. Los experimentos muestran que NaturalSpeech 3 supera a los sistemas TTS más avanzados en calidad, similitud, prosodia e inteligibilidad. Además, logramos un mejor rendimiento al escalar a 1B de parámetros y 200K horas de datos de entrenamiento.