インクリメンタルFastPitch:チャンクベースの高品質テキスト音声合成
Incremental FastPitch: Chunk-based High Quality Text to Speech
January 3, 2024
著者: Muyang Du, Chuan Liu, Junjie Lai
cs.AI
要旨
並列テキスト音声合成モデルは、リアルタイム音声合成に広く応用されており、従来の自己回帰モデルと比較して、より高い制御性と大幅に高速な合成プロセスを提供します。並列モデルは多くの面で利点があるものの、トランスフォーマーなどの完全並列アーキテクチャの性質上、インクリメンタル合成には不向きです。本研究では、Incremental FastPitchを提案します。これは、チャンクベースのFFTブロックによるアーキテクチャの改良、受容野制約付きチャンクアテンションマスクを用いた学習、および固定サイズの過去モデル状態を用いた推論により、高品質なメルチャンクをインクリメンタルに生成可能な新しいFastPitchバリアントです。実験結果から、提案手法は並列FastPitchと同等の音声品質を維持しつつ、大幅に低いレイテンシを実現し、リアルタイム音声アプリケーションにおける応答時間のさらなる短縮が可能であることが示されました。
English
Parallel text-to-speech models have been widely applied for real-time speech
synthesis, and they offer more controllability and a much faster synthesis
process compared with conventional auto-regressive models. Although parallel
models have benefits in many aspects, they become naturally unfit for
incremental synthesis due to their fully parallel architecture such as
transformer. In this work, we propose Incremental FastPitch, a novel FastPitch
variant capable of incrementally producing high-quality Mel chunks by improving
the architecture with chunk-based FFT blocks, training with receptive-field
constrained chunk attention masks, and inference with fixed size past model
states. Experimental results show that our proposal can produce speech quality
comparable to the parallel FastPitch, with a significant lower latency that
allows even lower response time for real-time speech applications.