Incremental FastPitch: Sintesi Vocale di Alta Qualità Basata su Frammenti
Incremental FastPitch: Chunk-based High Quality Text to Speech
January 3, 2024
Autori: Muyang Du, Chuan Liu, Junjie Lai
cs.AI
Abstract
I modelli paralleli di sintesi vocale da testo sono stati ampiamente applicati per la sintesi vocale in tempo reale, offrendo una maggiore controllabilità e un processo di sintesi molto più veloce rispetto ai modelli auto-regressivi convenzionali. Sebbene i modelli paralleli presentino vantaggi in molti aspetti, diventano naturalmente inadatti per la sintesi incrementale a causa della loro architettura completamente parallela, come nel caso dei transformer. In questo lavoro, proponiamo Incremental FastPitch, una nuova variante di FastPitch in grado di produrre incrementalmente segmenti Mel di alta qualità, migliorando l'architettura con blocchi FFT basati su segmenti, addestrando con maschere di attenzione vincolate al campo ricettivo e inferendo con stati del modello passati di dimensione fissa. I risultati sperimentali dimostrano che la nostra proposta può produrre una qualità vocale paragonabile a quella del FastPitch parallelo, con una latenza significativamente inferiore che consente tempi di risposta ancora più rapidi per applicazioni vocali in tempo reale.
English
Parallel text-to-speech models have been widely applied for real-time speech
synthesis, and they offer more controllability and a much faster synthesis
process compared with conventional auto-regressive models. Although parallel
models have benefits in many aspects, they become naturally unfit for
incremental synthesis due to their fully parallel architecture such as
transformer. In this work, we propose Incremental FastPitch, a novel FastPitch
variant capable of incrementally producing high-quality Mel chunks by improving
the architecture with chunk-based FFT blocks, training with receptive-field
constrained chunk attention masks, and inference with fixed size past model
states. Experimental results show that our proposal can produce speech quality
comparable to the parallel FastPitch, with a significant lower latency that
allows even lower response time for real-time speech applications.