Accelerazione della Generazione di Forme d'Onda ad Alta Fedeltà tramite Ottimizzazione di Adversarial Flow Matching
Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization
August 15, 2024
Autori: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
Abstract
Questo articolo introduce PeriodWave-Turbo, un modello di generazione di waveform ad alta fedeltà ed efficienza tramite ottimizzazione adversarial flow matching. Recentemente, i modelli generativi conditional flow matching (CFM) sono stati adottati con successo per compiti di generazione di waveform, sfruttando un obiettivo di stima di un singolo campo vettoriale per l'addestramento. Sebbene questi modelli possano generare segnali waveform ad alta fedeltà, richiedono un numero significativamente maggiore di passaggi ODE rispetto ai modelli basati su GAN, che necessitano di un solo passaggio di generazione. Inoltre, i campioni generati spesso mancano di informazioni ad alta frequenza a causa della stima rumorosa del campo vettoriale, che non garantisce una riproduzione fedele delle alte frequenze. Per affrontare questa limitazione, abbiamo potenziato i modelli generativi pre-addestrati basati su CFM incorporando una modifica del generatore a passi fissi. Abbiamo utilizzato perdite di ricostruzione e feedback adversarial per accelerare la generazione di waveform ad alta fedeltà. Attraverso l'ottimizzazione adversarial flow matching, sono necessari solo 1.000 passaggi di fine-tuning per raggiungere prestazioni all'avanguardia su varie metriche oggettive. Inoltre, abbiamo ridotto significativamente la velocità di inferenza da 16 passaggi a 2 o 4 passaggi. In aggiunta, aumentando la dimensione del backbone di PeriodWave da 29M a 70M parametri per migliorare la generalizzazione, PeriodWave-Turbo raggiunge prestazioni senza precedenti, con un punteggio di valutazione percettiva della qualità del parlato (PESQ) di 4.454 sul dataset LibriTTS. Campioni audio, codice sorgente e checkpoint saranno disponibili su https://github.com/sh-lee-prml/PeriodWave.
English
This paper introduces PeriodWave-Turbo, a high-fidelity and high-efficient
waveform generation model via adversarial flow matching optimization. Recently,
conditional flow matching (CFM) generative models have been successfully
adopted for waveform generation tasks, leveraging a single vector field
estimation objective for training. Although these models can generate
high-fidelity waveform signals, they require significantly more ODE steps
compared to GAN-based models, which only need a single generation step.
Additionally, the generated samples often lack high-frequency information due
to noisy vector field estimation, which fails to ensure high-frequency
reproduction. To address this limitation, we enhance pre-trained CFM-based
generative models by incorporating a fixed-step generator modification. We
utilized reconstruction losses and adversarial feedback to accelerate
high-fidelity waveform generation. Through adversarial flow matching
optimization, it only requires 1,000 steps of fine-tuning to achieve
state-of-the-art performance across various objective metrics. Moreover, we
significantly reduce inference speed from 16 steps to 2 or 4 steps.
Additionally, by scaling up the backbone of PeriodWave from 29M to 70M
parameters for improved generalization, PeriodWave-Turbo achieves unprecedented
performance, with a perceptual evaluation of speech quality (PESQ) score of
4.454 on the LibriTTS dataset. Audio samples, source code and checkpoints will
be available at https://github.com/sh-lee-prml/PeriodWave.