ChatPaper.aiChatPaper

Mega-TTS: Масштабируемый синтез речи из текста в условиях нулевого обучения с использованием внутренней индуктивной предвзятости

Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

June 6, 2023
Авторы: Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI

Аннотация

Масштабирование систем преобразования текста в речь (TTS) на большие и разнородные наборы данных доказало свою высокую эффективность в достижении обобщения тембра и стиля речи, особенно в задачах zero-shot TTS. Однако предыдущие работы обычно кодируют речь в латентное пространство с использованием аудиокодеков и применяют авторегрессионные языковые модели или модели диффузии для генерации, что игнорирует внутреннюю природу речи и может приводить к ухудшению качества или неуправляемым результатам. Мы утверждаем, что речь может быть разложена на несколько атрибутов (например, содержание, тембр, просодия и фаза), и каждый из них должен моделироваться с использованием модулей с соответствующими индуктивными предпосылками. С этой точки зрения мы тщательно разработали новую и масштабируемую систему zero-shot TTS под названием Mega-TTS, которая обучается на больших разнородных данных и моделирует различные атрибуты разными способами: 1) Вместо использования латентного представления, закодированного аудиокодеком, мы выбираем спектрограмму, так как она хорошо разделяет фазу и другие атрибуты. Фаза может быть корректно восстановлена с помощью GAN-вокодера и не требует моделирования языковой моделью. 2) Мы моделируем тембр с использованием глобальных векторов, поскольку тембр является глобальным атрибутом, который изменяется медленно во времени. 3) Мы также используем акустическую модель на основе VQGAN для генерации спектрограммы и языковую модель латентных кодов для аппроксимации распределения просодии, так как просодия быстро изменяется в пределах предложения, а языковые модели способны улавливать как локальные, так и долгосрочные зависимости. Мы масштабировали Mega-TTS на мультидоменные наборы данных с 20 тысячами часов речи и оценили её производительность на незнакомых дикторах. Экспериментальные результаты показывают, что Mega-TTS превосходит современные системы TTS в задачах zero-shot TTS, редактирования речи и кросс-языкового TTS, демонстрируя превосходную естественность, устойчивость и сходство с голосом диктора благодаря правильным индуктивным предпосылкам каждого модуля. Аудиообразцы доступны по ссылке: https://mega-tts.github.io/demo-page.
English
Scaling text-to-speech to a large and wild dataset has been proven to be highly effective in achieving timbre and speech style generalization, particularly in zero-shot TTS. However, previous works usually encode speech into latent using audio codec and use autoregressive language models or diffusion models to generate it, which ignores the intrinsic nature of speech and may lead to inferior or uncontrollable results. We argue that speech can be decomposed into several attributes (e.g., content, timbre, prosody, and phase) and each of them should be modeled using a module with appropriate inductive biases. From this perspective, we carefully design a novel and large zero-shot TTS system called Mega-TTS, which is trained with large-scale wild data and models different attributes in different ways: 1) Instead of using latent encoded by audio codec as the intermediate feature, we still choose spectrogram as it separates the phase and other attributes very well. Phase can be appropriately constructed by the GAN-based vocoder and does not need to be modeled by the language model. 2) We model the timbre using global vectors since timbre is a global attribute that changes slowly over time. 3) We further use a VQGAN-based acoustic model to generate the spectrogram and a latent code language model to fit the distribution of prosody, since prosody changes quickly over time in a sentence, and language models can capture both local and long-range dependencies. We scale Mega-TTS to multi-domain datasets with 20K hours of speech and evaluate its performance on unseen speakers. Experimental results demonstrate that Mega-TTS surpasses state-of-the-art TTS systems on zero-shot TTS, speech editing, and cross-lingual TTS tasks, with superior naturalness, robustness, and speaker similarity due to the proper inductive bias of each module. Audio samples are available at https://mega-tts.github.io/demo-page.
PDF54December 15, 2024