Incremental FastPitch: Chunk-basierte hochqualitative Sprachsynthese
Incremental FastPitch: Chunk-based High Quality Text to Speech
January 3, 2024
Autoren: Muyang Du, Chuan Liu, Junjie Lai
cs.AI
Zusammenfassung
Parallele Text-zu-Sprache-Modelle wurden weit verbreitet für die Echtzeit-Sprachsynthese eingesetzt und bieten im Vergleich zu herkömmlichen autoregressiven Modellen mehr Kontrollierbarkeit und einen deutlich schnelleren Syntheseprozess. Obwohl parallele Modelle in vielen Aspekten Vorteile haben, eignen sie sich aufgrund ihrer vollständig parallelen Architektur, wie beispielsweise dem Transformer, natürlicherweise nicht für die inkrementelle Synthese. In dieser Arbeit schlagen wir Incremental FastPitch vor, eine neuartige Variante von FastPitch, die in der Lage ist, hochwertige Mel-Chunks inkrementell zu erzeugen, indem die Architektur durch chunk-basierte FFT-Blöcke verbessert wird, das Training mit rezeptivfeldbeschränkten Chunk-Attentionsmasken durchgeführt wird und die Inferenz mit festen Modellzuständen der Vergangenheit erfolgt. Experimentelle Ergebnisse zeigen, dass unser Vorschlag eine Sprachqualität erreicht, die mit der des parallelen FastPitch vergleichbar ist, jedoch mit einer deutlich geringeren Latenz, die eine noch kürzere Antwortzeit für Echtzeit-Sprachanwendungen ermöglicht.
English
Parallel text-to-speech models have been widely applied for real-time speech
synthesis, and they offer more controllability and a much faster synthesis
process compared with conventional auto-regressive models. Although parallel
models have benefits in many aspects, they become naturally unfit for
incremental synthesis due to their fully parallel architecture such as
transformer. In this work, we propose Incremental FastPitch, a novel FastPitch
variant capable of incrementally producing high-quality Mel chunks by improving
the architecture with chunk-based FFT blocks, training with receptive-field
constrained chunk attention masks, and inference with fixed size past model
states. Experimental results show that our proposal can produce speech quality
comparable to the parallel FastPitch, with a significant lower latency that
allows even lower response time for real-time speech applications.