高忠実度波形生成の高速化:敵対的フローマッチング最適化によるアプローチ
Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization
August 15, 2024
著者: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
要旨
本論文では、敵対的フローマッチング最適化による高忠実度かつ高効率な波形生成モデルであるPeriodWave-Turboを紹介する。最近、条件付きフローマッチング(CFM)生成モデルは、単一のベクトル場推定目的を活用して波形生成タスクに成功裏に適用されている。これらのモデルは高忠実度の波形信号を生成できるが、GANベースのモデルと比較して、生成に必要なODEステップ数が大幅に多い。さらに、ノイジーなベクトル場推定により、高周波情報の再現が保証されず、生成サンプルはしばしば高周波情報を欠いている。この制限に対処するため、我々は事前学習済みのCFMベース生成モデルを固定ステップ生成器の修正を組み込むことで強化した。再構成損失と敵対的フィードバックを活用し、高忠実度波形生成を加速した。敵対的フローマッチング最適化により、わずか1,000ステップのファインチューニングで、様々な客観的指標において最先端の性能を達成した。さらに、推論速度を16ステップから2または4ステップに大幅に削減した。さらに、PeriodWaveのバックボーンを29Mから70Mパラメータにスケールアップして汎化性能を向上させた結果、PeriodWave-TurboはLibriTTSデータセットにおいて4.454のPESQ(Perceptual Evaluation of Speech Quality)スコアという前例のない性能を達成した。音声サンプル、ソースコード、およびチェックポイントはhttps://github.com/sh-lee-prml/PeriodWaveで公開予定である。
English
This paper introduces PeriodWave-Turbo, a high-fidelity and high-efficient
waveform generation model via adversarial flow matching optimization. Recently,
conditional flow matching (CFM) generative models have been successfully
adopted for waveform generation tasks, leveraging a single vector field
estimation objective for training. Although these models can generate
high-fidelity waveform signals, they require significantly more ODE steps
compared to GAN-based models, which only need a single generation step.
Additionally, the generated samples often lack high-frequency information due
to noisy vector field estimation, which fails to ensure high-frequency
reproduction. To address this limitation, we enhance pre-trained CFM-based
generative models by incorporating a fixed-step generator modification. We
utilized reconstruction losses and adversarial feedback to accelerate
high-fidelity waveform generation. Through adversarial flow matching
optimization, it only requires 1,000 steps of fine-tuning to achieve
state-of-the-art performance across various objective metrics. Moreover, we
significantly reduce inference speed from 16 steps to 2 or 4 steps.
Additionally, by scaling up the backbone of PeriodWave from 29M to 70M
parameters for improved generalization, PeriodWave-Turbo achieves unprecedented
performance, with a perceptual evaluation of speech quality (PESQ) score of
4.454 on the LibriTTS dataset. Audio samples, source code and checkpoints will
be available at https://github.com/sh-lee-prml/PeriodWave.Summary
AI-Generated Summary