ChatPaper.aiChatPaper

BASE TTS: Erkenntnisse aus der Entwicklung eines Text-zu-Sprache-Modells mit einer Milliarde Parametern auf Basis von 100.000 Stunden Daten

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

February 12, 2024
papers.authors: Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman
cs.AI

papers.abstract

Wir stellen ein Text-zu-Sprache-Modell (TTS) namens BASE TTS vor, das für Big Adaptive Streamable TTS with Emergent Abilities steht. BASE TTS ist das bisher größte TTS-Modell, das mit 100.000 Stunden öffentlich zugänglicher Sprachdaten trainiert wurde und einen neuen Stand der Technik in Bezug auf die Natürlichkeit der Sprache erreicht. Es verwendet einen autoregressiven Transformer mit 1 Milliarde Parametern, der Rohtexte in diskrete Codes („Speechcodes“) umwandelt, gefolgt von einem convolution-basierten Decoder, der diese Speechcodes in einem inkrementellen, streamfähigen Verfahren in Wellenformen umsetzt. Darüber hinaus werden unsere Speechcodes mit einer neuartigen Sprach-Tokenisierungstechnik erstellt, die eine Sprecher-ID-Entflechtung und Kompression mittels Byte-Pair-Encoding ermöglicht. In Anlehnung an die weit verbreiteten „emergenten Fähigkeiten“ großer Sprachmodelle, die bei zunehmendem Datenvolumen beobachtet werden, zeigen wir, dass BASE TTS-Varianten, die mit 10.000+ Stunden und 500 Millionen+ Parametern aufgebaut sind, beginnen, natürliche Prosodie bei textlich komplexen Sätzen zu demonstrieren. Wir entwerfen und teilen einen spezialisierten Datensatz, um diese emergenten Fähigkeiten für Text-zu-Sprache zu messen. Wir präsentieren die state-of-the-art Natürlichkeit von BASE TTS durch die Evaluierung gegen Baselines, die öffentlich verfügbare groß angelegte Text-zu-Sprache-Systeme umfassen: YourTTS, Bark und TortoiseTTS. Audio-Beispiele, die vom Modell generiert wurden, können unter https://amazon-ltts-paper.com/ angehört werden.
English
We introduce a text-to-speech (TTS) model called BASE TTS, which stands for Big Adaptive Streamable TTS with Emergent abilities. BASE TTS is the largest TTS model to-date, trained on 100K hours of public domain speech data, achieving a new state-of-the-art in speech naturalness. It deploys a 1-billion-parameter autoregressive Transformer that converts raw texts into discrete codes ("speechcodes") followed by a convolution-based decoder which converts these speechcodes into waveforms in an incremental, streamable manner. Further, our speechcodes are built using a novel speech tokenization technique that features speaker ID disentanglement and compression with byte-pair encoding. Echoing the widely-reported "emergent abilities" of large language models when trained on increasing volume of data, we show that BASE TTS variants built with 10K+ hours and 500M+ parameters begin to demonstrate natural prosody on textually complex sentences. We design and share a specialized dataset to measure these emergent abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE TTS by evaluating against baselines that include publicly available large-scale text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated by the model can be heard at https://amazon-ltts-paper.com/.
PDF629December 15, 2024