ChatPaper.aiChatPaper

FlashSpeech: Эффективный синтез речи без обучающих данных

FlashSpeech: Efficient Zero-Shot Speech Synthesis

April 23, 2024
Авторы: Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue
cs.AI

Аннотация

Недавние успехи в масштабном синтезе речи без обучения значительно продвинулись благодаря языковым моделям и моделям диффузии. Однако процесс генерации обоих методов медленный и требует значительных вычислительных ресурсов. Эффективный синтез речи с использованием более низкого вычислительного бюджета для достижения качества на уровне предыдущих работ остается значительным вызовом. В данной статье мы представляем FlashSpeech, систему масштабного синтеза речи без обучения с использованием примерно 5\% времени вывода по сравнению с предыдущими работами. FlashSpeech основан на модели латентной согласованности и применяет новый подход обучения с использованием адверсариальной согласованности, который позволяет обучаться с нуля без необходимости предварительного обучения модели диффузии как учителя. Кроме того, новый модуль генератора просодии повышает разнообразие просодии, делая ритм речи звучащим более естественно. Процессы генерации FlashSpeech могут быть выполнены эффективно с одним или двумя шагами выборки, сохраняя высокое качество звука и высокую схожесть с аудио-подсказкой для генерации речи без обучения. Наши экспериментальные результаты демонстрируют превосходную производительность FlashSpeech. Следует отметить, что FlashSpeech может быть примерно в 20 раз быстрее других систем синтеза речи без обучения, сохраняя сопоставимую производительность в терминах качества голоса и схожести. Кроме того, FlashSpeech проявляет свою универсальность, эффективно выполняя задачи, такие как конвертация голоса, редактирование речи и разнообразная выборка речи. Аудиообразцы можно найти на https://flashspeech.github.io/.
English
Recent progress in large-scale zero-shot speech synthesis has been significantly advanced by language models and diffusion models. However, the generation process of both methods is slow and computationally intensive. Efficient speech synthesis using a lower computing budget to achieve quality on par with previous work remains a significant challenge. In this paper, we present FlashSpeech, a large-scale zero-shot speech synthesis system with approximately 5\% of the inference time compared with previous work. FlashSpeech is built on the latent consistency model and applies a novel adversarial consistency training approach that can train from scratch without the need for a pre-trained diffusion model as the teacher. Furthermore, a new prosody generator module enhances the diversity of prosody, making the rhythm of the speech sound more natural. The generation processes of FlashSpeech can be achieved efficiently with one or two sampling steps while maintaining high audio quality and high similarity to the audio prompt for zero-shot speech generation. Our experimental results demonstrate the superior performance of FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other zero-shot speech synthesis systems while maintaining comparable performance in terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates its versatility by efficiently performing tasks like voice conversion, speech editing, and diverse speech sampling. Audio samples can be found in https://flashspeech.github.io/.

Summary

AI-Generated Summary

PDF334December 15, 2024