FastPitch Incremental: Síntese de Fala de Alta Qualidade Baseada em Segmentos
Incremental FastPitch: Chunk-based High Quality Text to Speech
January 3, 2024
Autores: Muyang Du, Chuan Liu, Junjie Lai
cs.AI
Resumo
Modelos paralelos de texto-para-fala têm sido amplamente aplicados para síntese de fala em tempo real, oferecendo maior controlabilidade e um processo de síntese muito mais rápido em comparação com modelos auto-regressivos convencionais. Embora os modelos paralelos apresentem benefícios em vários aspectos, eles se tornam naturalmente inadequados para síntese incremental devido à sua arquitetura totalmente paralela, como a do transformer. Neste trabalho, propomos o Incremental FastPitch, uma nova variante do FastPitch capaz de produzir incrementalmente segmentos de Mel de alta qualidade, aprimorando a arquitetura com blocos FFT baseados em segmentos, treinamento com máscaras de atenção de segmentos restritas ao campo receptivo e inferência com estados passados do modelo de tamanho fixo. Resultados experimentais mostram que nossa proposta pode produzir qualidade de fala comparável ao FastPitch paralelo, com uma latência significativamente menor que permite tempos de resposta ainda mais reduzidos para aplicações de fala em tempo real.
English
Parallel text-to-speech models have been widely applied for real-time speech
synthesis, and they offer more controllability and a much faster synthesis
process compared with conventional auto-regressive models. Although parallel
models have benefits in many aspects, they become naturally unfit for
incremental synthesis due to their fully parallel architecture such as
transformer. In this work, we propose Incremental FastPitch, a novel FastPitch
variant capable of incrementally producing high-quality Mel chunks by improving
the architecture with chunk-based FFT blocks, training with receptive-field
constrained chunk attention masks, and inference with fixed size past model
states. Experimental results show that our proposal can produce speech quality
comparable to the parallel FastPitch, with a significant lower latency that
allows even lower response time for real-time speech applications.