BASE TTS: Lecciones de la construcción de un modelo de Texto a Voz con mil millones de parámetros entrenado con 100 mil horas de datosBASE TTS: Lessons from building a billion-parameter Text-to-Speech model
on 100K hours of data
Presentamos un modelo de texto a voz (TTS, por sus siglas en inglés) llamado BASE TTS, que significa Big Adaptive Streamable TTS with Emergent abilities (TTS Grande, Adaptable y Transmisible con Habilidades Emergentes). BASE TTS es el modelo TTS más grande hasta la fecha, entrenado con 100 mil horas de datos de voz de dominio público, logrando un nuevo estado del arte en naturalidad del habla. Utiliza un Transformer autorregresivo de mil millones de parámetros que convierte textos sin procesar en códigos discretos ("speechcodes"), seguido de un decodificador basado en convoluciones que transforma estos speechcodes en formas de onda de manera incremental y transmisible. Además, nuestros speechcodes se construyen mediante una novedosa técnica de tokenización del habla que incluye la separación de la identidad del hablante y compresión con codificación byte-pair. Haciendo eco de las ampliamente reportadas "habilidades emergentes" de los modelos de lenguaje grandes cuando se entrenan con volúmenes crecientes de datos, demostramos que las variantes de BASE TTS construidas con más de 10 mil horas y 500 millones de parámetros comienzan a mostrar una prosodia natural en oraciones textualmente complejas. Diseñamos y compartimos un conjunto de datos especializado para medir estas habilidades emergentes en texto a voz. Mostramos la naturalidad de vanguardia de BASE TTS mediante evaluaciones comparativas con sistemas de texto a voz de gran escala disponibles públicamente: YourTTS, Bark y TortoiseTTS. Las muestras de audio generadas por el modelo pueden escucharse en https://amazon-ltts-paper.com/.