BASE TTS: Erkenntnisse aus der Entwicklung eines Text-zu-Sprache-Modells mit einer Milliarde Parametern auf Basis von 100.000 Stunden DatenBASE TTS: Lessons from building a billion-parameter Text-to-Speech model
on 100K hours of data
Wir stellen ein Text-zu-Sprache-Modell (TTS) namens BASE TTS vor, das für Big Adaptive Streamable TTS with Emergent Abilities steht. BASE TTS ist das bisher größte TTS-Modell, das mit 100.000 Stunden öffentlich zugänglicher Sprachdaten trainiert wurde und einen neuen Stand der Technik in Bezug auf die Natürlichkeit der Sprache erreicht. Es verwendet einen autoregressiven Transformer mit 1 Milliarde Parametern, der Rohtexte in diskrete Codes („Speechcodes“) umwandelt, gefolgt von einem convolution-basierten Decoder, der diese Speechcodes in einem inkrementellen, streamfähigen Verfahren in Wellenformen umsetzt. Darüber hinaus werden unsere Speechcodes mit einer neuartigen Sprach-Tokenisierungstechnik erstellt, die eine Sprecher-ID-Entflechtung und Kompression mittels Byte-Pair-Encoding ermöglicht. In Anlehnung an die weit verbreiteten „emergenten Fähigkeiten“ großer Sprachmodelle, die bei zunehmendem Datenvolumen beobachtet werden, zeigen wir, dass BASE TTS-Varianten, die mit 10.000+ Stunden und 500 Millionen+ Parametern aufgebaut sind, beginnen, natürliche Prosodie bei textlich komplexen Sätzen zu demonstrieren. Wir entwerfen und teilen einen spezialisierten Datensatz, um diese emergenten Fähigkeiten für Text-zu-Sprache zu messen. Wir präsentieren die state-of-the-art Natürlichkeit von BASE TTS durch die Evaluierung gegen Baselines, die öffentlich verfügbare groß angelegte Text-zu-Sprache-Systeme umfassen: YourTTS, Bark und TortoiseTTS. Audio-Beispiele, die vom Modell generiert wurden, können unter https://amazon-ltts-paper.com/ angehört werden.