BASE TTS: Уроки создания модели преобразования текста в речь с миллиардом параметров на основе 100 тысяч часов данныхBASE TTS: Lessons from building a billion-parameter Text-to-Speech model
on 100K hours of data
Мы представляем модель преобразования текста в речь (Text-to-Speech, TTS) под названием BASE TTS, что расшифровывается как Big Adaptive Streamable TTS with Emergent abilities (Большая Адаптивная Потоковая TTS с возникающими способностями). BASE TTS является крупнейшей на сегодняшний день моделью TTS, обученной на 100 тысячах часов речевых данных из общедоступных источников, и устанавливает новый стандарт естественности речи. Модель использует авторегрессивный Transformer с 1 миллиардом параметров, который преобразует исходные тексты в дискретные коды ("речевые коды"), за которыми следует сверточный декодер, преобразующий эти речевые коды в звуковые волны инкрементально и с возможностью потоковой передачи. Кроме того, наши речевые коды создаются с использованием новой техники токенизации речи, которая включает разделение идентификатора говорящего и сжатие с помощью кодирования пар байтов (byte-pair encoding). Подобно широко обсуждаемым "возникающим способностям" больших языковых моделей при обучении на растущих объемах данных, мы показываем, что варианты BASE TTS, построенные на 10+ тысячах часов данных и 500+ миллионах параметров, начинают демонстрировать естественную просодию на текстах с высокой сложностью. Мы разработали и опубликовали специализированный набор данных для измерения этих возникающих способностей в задачах преобразования текста в речь. Мы демонстрируем передовую естественность BASE TTS, сравнивая её с базовыми моделями, включая общедоступные крупномасштабные системы TTS: YourTTS, Bark и TortoiseTTS. Аудиообразцы, созданные моделью, можно прослушать по адресу https://amazon-ltts-paper.com/.