ChatPaper.aiChatPaper

Incremental FastPitch : Synthèse vocale de haute qualité basée sur des segments

Incremental FastPitch: Chunk-based High Quality Text to Speech

January 3, 2024
Auteurs: Muyang Du, Chuan Liu, Junjie Lai
cs.AI

Résumé

Les modèles parallèles de synthèse vocale ont été largement utilisés pour la synthèse de parole en temps réel, offrant une meilleure contrôlabilité et un processus de synthèse beaucoup plus rapide que les modèles auto-régressifs conventionnels. Bien que les modèles parallèles présentent de nombreux avantages, ils deviennent naturellement inadaptés à la synthèse incrémentale en raison de leur architecture entièrement parallèle, comme celle des transformateurs. Dans ce travail, nous proposons Incremental FastPitch, une nouvelle variante de FastPitch capable de produire de manière incrémentale des segments de spectrogrammes de haute qualité. Cela est rendu possible par l'amélioration de l'architecture avec des blocs FFT basés sur des segments, l'entraînement avec des masques d'attention contraints par le champ réceptif, et l'inférence avec des états de modèle passés de taille fixe. Les résultats expérimentaux montrent que notre proposition peut produire une qualité de parole comparable à celle du FastPitch parallèle, avec une latence significativement plus faible, permettant ainsi un temps de réponse encore plus court pour les applications de synthèse vocale en temps réel.
English
Parallel text-to-speech models have been widely applied for real-time speech synthesis, and they offer more controllability and a much faster synthesis process compared with conventional auto-regressive models. Although parallel models have benefits in many aspects, they become naturally unfit for incremental synthesis due to their fully parallel architecture such as transformer. In this work, we propose Incremental FastPitch, a novel FastPitch variant capable of incrementally producing high-quality Mel chunks by improving the architecture with chunk-based FFT blocks, training with receptive-field constrained chunk attention masks, and inference with fixed size past model states. Experimental results show that our proposal can produce speech quality comparable to the parallel FastPitch, with a significant lower latency that allows even lower response time for real-time speech applications.
PDF103December 15, 2024