Accélération de la génération de formes d'onde haute fidélité via l'optimisation par correspondance de flux adversarial
Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization
August 15, 2024
Auteurs: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
Résumé
Cet article présente PeriodWave-Turbo, un modèle de génération de formes d'ondes à haute fidélité et haute efficacité, optimisé par appariement de flux adversarial. Récemment, les modèles génératifs basés sur l'appariement de flux conditionnel (CFM) ont été adoptés avec succès pour des tâches de génération de formes d'ondes, en exploitant un objectif unique d'estimation de champ vectoriel pour l'entraînement. Bien que ces modèles puissent générer des signaux de forme d'onde à haute fidélité, ils nécessitent un nombre significativement plus élevé d'étapes d'équations différentielles ordinaires (ODE) par rapport aux modèles basés sur les GAN, qui ne nécessitent qu'une seule étape de génération. De plus, les échantillons générés manquent souvent d'informations à haute fréquence en raison d'une estimation bruyante du champ vectoriel, ce qui ne garantit pas une reproduction fidèle des hautes fréquences. Pour pallier cette limitation, nous améliorons les modèles génératifs pré-entraînés basés sur CFM en incorporant une modification du générateur à pas fixe. Nous avons utilisé des pertes de reconstruction et un retour adversarial pour accélérer la génération de formes d'ondes à haute fidélité. Grâce à l'optimisation par appariement de flux adversarial, seulement 1 000 étapes de réglage fin sont nécessaires pour atteindre des performances de pointe sur diverses métriques objectives. De plus, nous réduisons significativement la vitesse d'inférence, passant de 16 étapes à 2 ou 4 étapes. En augmentant également la taille du modèle de base de PeriodWave de 29 millions à 70 millions de paramètres pour améliorer la généralisation, PeriodWave-Turbo atteint des performances sans précédent, avec un score d'évaluation perceptuelle de la qualité de la parole (PESQ) de 4,454 sur le jeu de données LibriTTS. Les échantillons audio, le code source et les points de contrôle seront disponibles à l'adresse https://github.com/sh-lee-prml/PeriodWave.
English
This paper introduces PeriodWave-Turbo, a high-fidelity and high-efficient
waveform generation model via adversarial flow matching optimization. Recently,
conditional flow matching (CFM) generative models have been successfully
adopted for waveform generation tasks, leveraging a single vector field
estimation objective for training. Although these models can generate
high-fidelity waveform signals, they require significantly more ODE steps
compared to GAN-based models, which only need a single generation step.
Additionally, the generated samples often lack high-frequency information due
to noisy vector field estimation, which fails to ensure high-frequency
reproduction. To address this limitation, we enhance pre-trained CFM-based
generative models by incorporating a fixed-step generator modification. We
utilized reconstruction losses and adversarial feedback to accelerate
high-fidelity waveform generation. Through adversarial flow matching
optimization, it only requires 1,000 steps of fine-tuning to achieve
state-of-the-art performance across various objective metrics. Moreover, we
significantly reduce inference speed from 16 steps to 2 or 4 steps.
Additionally, by scaling up the backbone of PeriodWave from 29M to 70M
parameters for improved generalization, PeriodWave-Turbo achieves unprecedented
performance, with a perceptual evaluation of speech quality (PESQ) score of
4.454 on the LibriTTS dataset. Audio samples, source code and checkpoints will
be available at https://github.com/sh-lee-prml/PeriodWave.Summary
AI-Generated Summary