FastPitch Incremental: Síntesis de Voz de Alta Calidad Basada en Fragmentos
Incremental FastPitch: Chunk-based High Quality Text to Speech
January 3, 2024
Autores: Muyang Du, Chuan Liu, Junjie Lai
cs.AI
Resumen
Los modelos paralelos de texto a voz se han aplicado ampliamente para la síntesis de voz en tiempo real, y ofrecen una mayor capacidad de control y un proceso de síntesis mucho más rápido en comparación con los modelos autorregresivos convencionales. Aunque los modelos paralelos tienen ventajas en muchos aspectos, se vuelven naturalmente inadecuados para la síntesis incremental debido a su arquitectura completamente paralela, como la del transformador. En este trabajo, proponemos Incremental FastPitch, una novedosa variante de FastPitch capaz de producir fragmentos de Mel de alta calidad de manera incremental, mejorando la arquitectura con bloques FFT basados en fragmentos, entrenando con máscaras de atención de fragmentos restringidas por el campo receptivo e inferencia con estados del modelo pasados de tamaño fijo. Los resultados experimentales muestran que nuestra propuesta puede producir una calidad de voz comparable a la de FastPitch paralelo, con una latencia significativamente menor que permite tiempos de respuesta aún más reducidos para aplicaciones de voz en tiempo real.
English
Parallel text-to-speech models have been widely applied for real-time speech
synthesis, and they offer more controllability and a much faster synthesis
process compared with conventional auto-regressive models. Although parallel
models have benefits in many aspects, they become naturally unfit for
incremental synthesis due to their fully parallel architecture such as
transformer. In this work, we propose Incremental FastPitch, a novel FastPitch
variant capable of incrementally producing high-quality Mel chunks by improving
the architecture with chunk-based FFT blocks, training with receptive-field
constrained chunk attention masks, and inference with fixed size past model
states. Experimental results show that our proposal can produce speech quality
comparable to the parallel FastPitch, with a significant lower latency that
allows even lower response time for real-time speech applications.