BASE TTS : Leçons tirées de la construction d'un modèle de synthèse vocale à un milliard de paramètres sur 100 000 heures de données
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
February 12, 2024
Auteurs: Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman
cs.AI
Résumé
Nous présentons un modèle de synthèse vocale (TTS) appelé BASE TTS, qui signifie Big Adaptive Streamable TTS with Emergent abilities. BASE TTS est le plus grand modèle TTS à ce jour, entraîné sur 100 000 heures de données vocales du domaine public, atteignant un nouveau niveau de pointe en matière de naturalité de la parole. Il utilise un Transformer autorégressif à 1 milliard de paramètres qui convertit des textes bruts en codes discrets ("speechcodes"), suivis d'un décodeur basé sur des convolutions qui transforme ces speechcodes en formes d'onde de manière incrémentale et streamable. De plus, nos speechcodes sont construits à l'aide d'une nouvelle technique de tokenisation de la parole qui intègre une dissociation de l'identité du locuteur et une compression via un encodage par paires d'octets. Faisant écho aux "capacités émergentes" largement rapportées des grands modèles de langage lorsqu'ils sont entraînés sur des volumes croissants de données, nous montrons que les variantes de BASE TTS construites avec plus de 10 000 heures et 500 millions de paramètres commencent à démontrer une prosodie naturelle sur des phrases textuellement complexes. Nous concevons et partageons un ensemble de données spécialisé pour mesurer ces capacités émergentes en synthèse vocale. Nous démontrons la naturalité de pointe de BASE TTS en l'évaluant par rapport à des systèmes de référence incluant des systèmes de synthèse vocale à grande échelle disponibles publiquement : YourTTS, Bark et TortoiseTTS. Des échantillons audio générés par le modèle peuvent être écoutés à l'adresse https://amazon-ltts-paper.com/.
English
We introduce a text-to-speech (TTS) model called BASE TTS, which stands for
Big Adaptive Streamable TTS with
Emergent abilities. BASE TTS is the largest TTS model to-date,
trained on 100K hours of public domain speech data, achieving a new
state-of-the-art in speech naturalness. It deploys a 1-billion-parameter
autoregressive Transformer that converts raw texts into discrete codes
("speechcodes") followed by a convolution-based decoder which converts these
speechcodes into waveforms in an incremental, streamable manner. Further, our
speechcodes are built using a novel speech tokenization technique that features
speaker ID disentanglement and compression with byte-pair encoding. Echoing the
widely-reported "emergent abilities" of large language models when trained on
increasing volume of data, we show that BASE TTS variants built with 10K+ hours
and 500M+ parameters begin to demonstrate natural prosody on textually complex
sentences. We design and share a specialized dataset to measure these emergent
abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE
TTS by evaluating against baselines that include publicly available large-scale
text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated
by the model can be heard at https://amazon-ltts-paper.com/.Summary
AI-Generated Summary