BASE TTS: Lecciones de la construcción de un modelo de Texto a Voz con mil millones de parámetros entrenado con 100 mil horas de datos
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
February 12, 2024
Autores: Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman
cs.AI
Resumen
Presentamos un modelo de texto a voz (TTS, por sus siglas en inglés) llamado BASE TTS, que significa Big Adaptive Streamable TTS with Emergent abilities (TTS Grande, Adaptable y Transmisible con Habilidades Emergentes). BASE TTS es el modelo TTS más grande hasta la fecha, entrenado con 100 mil horas de datos de voz de dominio público, logrando un nuevo estado del arte en naturalidad del habla. Utiliza un Transformer autorregresivo de mil millones de parámetros que convierte textos sin procesar en códigos discretos ("speechcodes"), seguido de un decodificador basado en convoluciones que transforma estos speechcodes en formas de onda de manera incremental y transmisible. Además, nuestros speechcodes se construyen mediante una novedosa técnica de tokenización del habla que incluye la separación de la identidad del hablante y compresión con codificación byte-pair. Haciendo eco de las ampliamente reportadas "habilidades emergentes" de los modelos de lenguaje grandes cuando se entrenan con volúmenes crecientes de datos, demostramos que las variantes de BASE TTS construidas con más de 10 mil horas y 500 millones de parámetros comienzan a mostrar una prosodia natural en oraciones textualmente complejas. Diseñamos y compartimos un conjunto de datos especializado para medir estas habilidades emergentes en texto a voz. Mostramos la naturalidad de vanguardia de BASE TTS mediante evaluaciones comparativas con sistemas de texto a voz de gran escala disponibles públicamente: YourTTS, Bark y TortoiseTTS. Las muestras de audio generadas por el modelo pueden escucharse en https://amazon-ltts-paper.com/.
English
We introduce a text-to-speech (TTS) model called BASE TTS, which stands for
Big Adaptive Streamable TTS with
Emergent abilities. BASE TTS is the largest TTS model to-date,
trained on 100K hours of public domain speech data, achieving a new
state-of-the-art in speech naturalness. It deploys a 1-billion-parameter
autoregressive Transformer that converts raw texts into discrete codes
("speechcodes") followed by a convolution-based decoder which converts these
speechcodes into waveforms in an incremental, streamable manner. Further, our
speechcodes are built using a novel speech tokenization technique that features
speaker ID disentanglement and compression with byte-pair encoding. Echoing the
widely-reported "emergent abilities" of large language models when trained on
increasing volume of data, we show that BASE TTS variants built with 10K+ hours
and 500M+ parameters begin to demonstrate natural prosody on textually complex
sentences. We design and share a specialized dataset to measure these emergent
abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE
TTS by evaluating against baselines that include publicly available large-scale
text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated
by the model can be heard at https://amazon-ltts-paper.com/.