ChatPaper.aiChatPaper

Incremental FastPitch: Высококачественное преобразование текста в речь на основе фрагментов

Incremental FastPitch: Chunk-based High Quality Text to Speech

January 3, 2024
Авторы: Muyang Du, Chuan Liu, Junjie Lai
cs.AI

Аннотация

Параллельные модели преобразования текста в речь широко применяются для синтеза речи в реальном времени, предлагая более высокую управляемость и значительно более быстрый процесс синтеза по сравнению с традиционными авторегрессивными моделями. Хотя параллельные модели имеют преимущества во многих аспектах, они становятся естественно непригодными для инкрементного синтеза из-за их полностью параллельной архитектуры, такой как трансформер. В данной работе мы предлагаем Incremental FastPitch — новую версию FastPitch, способную инкрементно генерировать высококачественные фрагменты мел-спектрограмм за счет улучшения архитектуры с использованием блочных FFT-слоев, обучения с масками внимания, ограниченными рецептивным полем, и вывода с фиксированными состояниями прошлого модели. Экспериментальные результаты показывают, что наше предложение позволяет достичь качества речи, сопоставимого с параллельным FastPitch, при значительно меньшей задержке, что обеспечивает еще более быстрое время отклика для приложений синтеза речи в реальном времени.
English
Parallel text-to-speech models have been widely applied for real-time speech synthesis, and they offer more controllability and a much faster synthesis process compared with conventional auto-regressive models. Although parallel models have benefits in many aspects, they become naturally unfit for incremental synthesis due to their fully parallel architecture such as transformer. In this work, we propose Incremental FastPitch, a novel FastPitch variant capable of incrementally producing high-quality Mel chunks by improving the architecture with chunk-based FFT blocks, training with receptive-field constrained chunk attention masks, and inference with fixed size past model states. Experimental results show that our proposal can produce speech quality comparable to the parallel FastPitch, with a significant lower latency that allows even lower response time for real-time speech applications.
PDF103December 15, 2024