BASE TTS: Lições da construção de um modelo de Texto para Fala com bilhões de parâmetros em 100 mil horas de dados
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
February 12, 2024
Autores: Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman
cs.AI
Resumo
Apresentamos um modelo de texto-para-fala (TTS, do inglês Text-To-Speech) chamado BASE TTS, que significa Big Adaptive Streamable TTS with Emergent Abilities (TTS Grande, Adaptável e Transmissível com Habilidades Emergentes). O BASE TTS é o maior modelo TTS já desenvolvido, treinado com 100 mil horas de dados de fala de domínio público, alcançando um novo estado da arte em naturalidade de fala. Ele emprega um Transformer autorregressivo de 1 bilhão de parâmetros que converte textos brutos em códigos discretos ("speechcodes"), seguido por um decodificador baseado em convolução que transforma esses speechcodes em formas de onda de maneira incremental e transmissível. Além disso, nossos speechcodes são construídos usando uma nova técnica de tokenização de fala que apresenta desacoplamento de ID de falante e compressão com codificação byte-pair. Ecoando as amplamente relatadas "habilidades emergentes" de grandes modelos de linguagem quando treinados com volumes crescentes de dados, mostramos que variantes do BASE TTS construídas com mais de 10 mil horas e mais de 500 milhões de parâmetros começam a demonstrar prosódia natural em frases textualmente complexas. Projetamos e compartilhamos um conjunto de dados especializado para medir essas habilidades emergentes no contexto de texto-para-fala. Demonstramos a naturalidade de ponta do BASE TTS ao avaliá-lo em comparação com baselines que incluem sistemas de texto-para-fala em larga escala disponíveis publicamente: YourTTS, Bark e TortoiseTTS. Amostras de áudio geradas pelo modelo podem ser ouvidas em https://amazon-ltts-paper.com/.
English
We introduce a text-to-speech (TTS) model called BASE TTS, which stands for
Big Adaptive Streamable TTS with
Emergent abilities. BASE TTS is the largest TTS model to-date,
trained on 100K hours of public domain speech data, achieving a new
state-of-the-art in speech naturalness. It deploys a 1-billion-parameter
autoregressive Transformer that converts raw texts into discrete codes
("speechcodes") followed by a convolution-based decoder which converts these
speechcodes into waveforms in an incremental, streamable manner. Further, our
speechcodes are built using a novel speech tokenization technique that features
speaker ID disentanglement and compression with byte-pair encoding. Echoing the
widely-reported "emergent abilities" of large language models when trained on
increasing volume of data, we show that BASE TTS variants built with 10K+ hours
and 500M+ parameters begin to demonstrate natural prosody on textually complex
sentences. We design and share a specialized dataset to measure these emergent
abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE
TTS by evaluating against baselines that include publicly available large-scale
text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated
by the model can be heard at https://amazon-ltts-paper.com/.