BASE TTS: Уроки создания модели преобразования текста в речь с миллиардом параметров на основе 100 тысяч часов данных
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
February 12, 2024
Авторы: Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman
cs.AI
Аннотация
Мы представляем модель преобразования текста в речь (Text-to-Speech, TTS) под названием BASE TTS, что расшифровывается как Big Adaptive Streamable TTS with Emergent abilities (Большая Адаптивная Потоковая TTS с возникающими способностями). BASE TTS является крупнейшей на сегодняшний день моделью TTS, обученной на 100 тысячах часов речевых данных из общедоступных источников, и устанавливает новый стандарт естественности речи. Модель использует авторегрессивный Transformer с 1 миллиардом параметров, который преобразует исходные тексты в дискретные коды ("речевые коды"), за которыми следует сверточный декодер, преобразующий эти речевые коды в звуковые волны инкрементально и с возможностью потоковой передачи. Кроме того, наши речевые коды создаются с использованием новой техники токенизации речи, которая включает разделение идентификатора говорящего и сжатие с помощью кодирования пар байтов (byte-pair encoding). Подобно широко обсуждаемым "возникающим способностям" больших языковых моделей при обучении на растущих объемах данных, мы показываем, что варианты BASE TTS, построенные на 10+ тысячах часов данных и 500+ миллионах параметров, начинают демонстрировать естественную просодию на текстах с высокой сложностью. Мы разработали и опубликовали специализированный набор данных для измерения этих возникающих способностей в задачах преобразования текста в речь. Мы демонстрируем передовую естественность BASE TTS, сравнивая её с базовыми моделями, включая общедоступные крупномасштабные системы TTS: YourTTS, Bark и TortoiseTTS. Аудиообразцы, созданные моделью, можно прослушать по адресу https://amazon-ltts-paper.com/.
English
We introduce a text-to-speech (TTS) model called BASE TTS, which stands for
Big Adaptive Streamable TTS with
Emergent abilities. BASE TTS is the largest TTS model to-date,
trained on 100K hours of public domain speech data, achieving a new
state-of-the-art in speech naturalness. It deploys a 1-billion-parameter
autoregressive Transformer that converts raw texts into discrete codes
("speechcodes") followed by a convolution-based decoder which converts these
speechcodes into waveforms in an incremental, streamable manner. Further, our
speechcodes are built using a novel speech tokenization technique that features
speaker ID disentanglement and compression with byte-pair encoding. Echoing the
widely-reported "emergent abilities" of large language models when trained on
increasing volume of data, we show that BASE TTS variants built with 10K+ hours
and 500M+ parameters begin to demonstrate natural prosody on textually complex
sentences. We design and share a specialized dataset to measure these emergent
abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE
TTS by evaluating against baselines that include publicly available large-scale
text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated
by the model can be heard at https://amazon-ltts-paper.com/.Summary
AI-Generated Summary