Incremental FastPitch : Synthèse vocale de haute qualité basée sur des segments
Incremental FastPitch: Chunk-based High Quality Text to Speech
January 3, 2024
Auteurs: Muyang Du, Chuan Liu, Junjie Lai
cs.AI
Résumé
Les modèles parallèles de synthèse vocale ont été largement utilisés pour la synthèse de parole en temps réel, offrant une meilleure contrôlabilité et un processus de synthèse beaucoup plus rapide que les modèles auto-régressifs conventionnels. Bien que les modèles parallèles présentent de nombreux avantages, ils deviennent naturellement inadaptés à la synthèse incrémentale en raison de leur architecture entièrement parallèle, comme celle des transformateurs. Dans ce travail, nous proposons Incremental FastPitch, une nouvelle variante de FastPitch capable de produire de manière incrémentale des segments de spectrogrammes de haute qualité. Cela est rendu possible par l'amélioration de l'architecture avec des blocs FFT basés sur des segments, l'entraînement avec des masques d'attention contraints par le champ réceptif, et l'inférence avec des états de modèle passés de taille fixe. Les résultats expérimentaux montrent que notre proposition peut produire une qualité de parole comparable à celle du FastPitch parallèle, avec une latence significativement plus faible, permettant ainsi un temps de réponse encore plus court pour les applications de synthèse vocale en temps réel.
English
Parallel text-to-speech models have been widely applied for real-time speech
synthesis, and they offer more controllability and a much faster synthesis
process compared with conventional auto-regressive models. Although parallel
models have benefits in many aspects, they become naturally unfit for
incremental synthesis due to their fully parallel architecture such as
transformer. In this work, we propose Incremental FastPitch, a novel FastPitch
variant capable of incrementally producing high-quality Mel chunks by improving
the architecture with chunk-based FFT blocks, training with receptive-field
constrained chunk attention masks, and inference with fixed size past model
states. Experimental results show that our proposal can produce speech quality
comparable to the parallel FastPitch, with a significant lower latency that
allows even lower response time for real-time speech applications.