BASE TTS: Lezioni apprese dalla costruzione di un modello Text-to-Speech da un miliardo di parametri su 100.000 ore di dati
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
February 12, 2024
Autori: Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman
cs.AI
Abstract
Introduciamo un modello di sintesi vocale (TTS) chiamato BASE TTS, che sta per Big Adaptive Streamable TTS with Emergent abilities. BASE TTS è il più grande modello TTS fino ad oggi, addestrato su 100.000 ore di dati vocali di dominio pubblico, raggiungendo un nuovo stato dell'arte nella naturalezza del parlato. Utilizza un Transformer autoregressivo da 1 miliardo di parametri che converte testi grezzi in codici discreti ("speechcodes"), seguiti da un decoder basato su convoluzioni che trasforma questi speechcodes in waveform in modo incrementale e streamable. Inoltre, i nostri speechcodes sono costruiti utilizzando una nuova tecnica di tokenizzazione vocale che include la separazione dell'ID del parlante e la compressione con byte-pair encoding. Ricalcando le ampiamente riportate "abilità emergenti" dei modelli linguistici di grandi dimensioni quando addestrati su volumi crescenti di dati, dimostriamo che le varianti di BASE TTS costruite con oltre 10.000 ore e 500 milioni di parametri iniziano a mostrare una prosodia naturale su frasi testualmente complesse. Progettiamo e condividiamo un dataset specializzato per misurare queste abilità emergenti nella sintesi vocale. Mostriamo la naturalezza all'avanguardia di BASE TTS valutandolo rispetto a baseline che includono sistemi di sintesi vocale su larga scala disponibili pubblicamente: YourTTS, Bark e TortoiseTTS. Campioni audio generati dal modello possono essere ascoltati su https://amazon-ltts-paper.com/.
English
We introduce a text-to-speech (TTS) model called BASE TTS, which stands for
Big Adaptive Streamable TTS with
Emergent abilities. BASE TTS is the largest TTS model to-date,
trained on 100K hours of public domain speech data, achieving a new
state-of-the-art in speech naturalness. It deploys a 1-billion-parameter
autoregressive Transformer that converts raw texts into discrete codes
("speechcodes") followed by a convolution-based decoder which converts these
speechcodes into waveforms in an incremental, streamable manner. Further, our
speechcodes are built using a novel speech tokenization technique that features
speaker ID disentanglement and compression with byte-pair encoding. Echoing the
widely-reported "emergent abilities" of large language models when trained on
increasing volume of data, we show that BASE TTS variants built with 10K+ hours
and 500M+ parameters begin to demonstrate natural prosody on textually complex
sentences. We design and share a specialized dataset to measure these emergent
abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE
TTS by evaluating against baselines that include publicly available large-scale
text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated
by the model can be heard at https://amazon-ltts-paper.com/.