BASE TTS: Lessen uit het bouwen van een tekst-naar-spraakmodel met een miljard parameters op 100.000 uur aan data
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
February 12, 2024
Auteurs: Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman
cs.AI
Samenvatting
We introduceren een tekst-naar-spraak (TTS) model genaamd BASE TTS, wat staat voor Big Adaptive Streamable TTS with Emergent abilities. BASE TTS is het grootste TTS-model tot nu toe, getraind op 100.000 uur aan spraakdata uit het publieke domein, en behaalt een nieuwe staat-van-de-kunst in spraaknatuurlijkheid. Het maakt gebruik van een autoregressieve Transformer met 1 miljard parameters die ruwe tekst omzet in discrete codes ("speechcodes"), gevolgd door een op convolutie gebaseerde decoder die deze speechcodes incrementeel en streambaar omzet in golfvormen. Bovendien zijn onze speechcodes gebouwd met een nieuwe spraaktokenisatietechniek die spreker-ID-ontvlechting en compressie met byte-pair encoding omvat. In navolging van de veelgerapporteerde "emergent abilities" van grote taalmodellen wanneer ze worden getraind op een toenemend volume aan data, tonen we aan dat BASE TTS-varianten gebouwd met 10.000+ uur en 500M+ parameters natuurlijke prosodie beginnen te vertonen bij tekstueel complexe zinnen. We ontwerpen en delen een gespecialiseerde dataset om deze emergent abilities voor tekst-naar-spraak te meten. We demonstreren de staat-van-de-kunst natuurlijkheid van BASE TTS door evaluatie tegen baselines die publiek beschikbare grootschalige tekst-naar-spraaksystemen omvatten: YourTTS, Bark en TortoiseTTS. Audiovoorbeelden gegenereerd door het model zijn te beluisteren op https://amazon-ltts-paper.com/.
English
We introduce a text-to-speech (TTS) model called BASE TTS, which stands for
Big Adaptive Streamable TTS with
Emergent abilities. BASE TTS is the largest TTS model to-date,
trained on 100K hours of public domain speech data, achieving a new
state-of-the-art in speech naturalness. It deploys a 1-billion-parameter
autoregressive Transformer that converts raw texts into discrete codes
("speechcodes") followed by a convolution-based decoder which converts these
speechcodes into waveforms in an incremental, streamable manner. Further, our
speechcodes are built using a novel speech tokenization technique that features
speaker ID disentanglement and compression with byte-pair encoding. Echoing the
widely-reported "emergent abilities" of large language models when trained on
increasing volume of data, we show that BASE TTS variants built with 10K+ hours
and 500M+ parameters begin to demonstrate natural prosody on textually complex
sentences. We design and share a specialized dataset to measure these emergent
abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE
TTS by evaluating against baselines that include publicly available large-scale
text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated
by the model can be heard at https://amazon-ltts-paper.com/.