Incremental FastPitch: Chunk-gebaseerde hoogwaardige tekst-naar-spraak
Incremental FastPitch: Chunk-based High Quality Text to Speech
January 3, 2024
Auteurs: Muyang Du, Chuan Liu, Junjie Lai
cs.AI
Samenvatting
Parallelle tekst-naar-spraakmodellen worden veelvuldig toegepast voor real-time spraaksynthese en bieden meer controleerbaarheid en een aanzienlijk sneller syntheseproces in vergelijking met conventionele auto-regressieve modellen. Hoewel parallelle modellen op veel vlakken voordelen bieden, zijn ze van nature ongeschikt voor incrementele synthese vanwege hun volledig parallelle architectuur, zoals de transformer. In dit werk stellen we Incremental FastPitch voor, een nieuwe variant van FastPitch die in staat is om incrementeel hoogwaardige Mel-chunks te produceren door de architectuur te verbeteren met chunk-gebaseerde FFT-blokken, te trainen met receptieve-veld-beperkte chunk-attentiemaskers en inferentie uit te voeren met vaste grootte van eerdere modeltoestanden. Experimentele resultaten tonen aan dat onze voorstel spraakkwaliteit kan leveren die vergelijkbaar is met de parallelle FastPitch, met een aanzienlijk lagere latentie die zelfs een kortere reactietijd mogelijk maakt voor real-time spraaktoepassingen.
English
Parallel text-to-speech models have been widely applied for real-time speech
synthesis, and they offer more controllability and a much faster synthesis
process compared with conventional auto-regressive models. Although parallel
models have benefits in many aspects, they become naturally unfit for
incremental synthesis due to their fully parallel architecture such as
transformer. In this work, we propose Incremental FastPitch, a novel FastPitch
variant capable of incrementally producing high-quality Mel chunks by improving
the architecture with chunk-based FFT blocks, training with receptive-field
constrained chunk attention masks, and inference with fixed size past model
states. Experimental results show that our proposal can produce speech quality
comparable to the parallel FastPitch, with a significant lower latency that
allows even lower response time for real-time speech applications.