Acelerando la Generación de Formas de Onda de Alta Fidelidad a través de la Optimización de Coincidencia de Flujos Adversarios
Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization
August 15, 2024
Autores: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI
Resumen
Este artículo presenta PeriodWave-Turbo, un modelo de generación de formas de onda de alta fidelidad y alta eficiencia a través de la optimización de emparejamiento de flujo adversarial. Recientemente, los modelos generativos de emparejamiento de flujo condicional (CFM) han sido adoptados con éxito para tareas de generación de formas de onda, aprovechando un objetivo de estimación de campo vectorial único para el entrenamiento. Aunque estos modelos pueden generar señales de formas de onda de alta fidelidad, requieren significativamente más pasos de EDO en comparación con los modelos basados en GAN, que solo necesitan un paso de generación. Además, las muestras generadas a menudo carecen de información de alta frecuencia debido a la estimación ruidosa del campo vectorial, lo que no garantiza una reproducción de alta frecuencia. Para abordar esta limitación, mejoramos los modelos generativos basados en CFM pre-entrenados mediante la incorporación de una modificación de generador de paso fijo. Utilizamos pérdidas de reconstrucción y retroalimentación adversarial para acelerar la generación de formas de onda de alta fidelidad. A través de la optimización de emparejamiento de flujo adversarial, solo se requieren 1,000 pasos de ajuste fino para lograr un rendimiento de vanguardia en diversas métricas objetivas. Además, reducimos significativamente la velocidad de inferencia de 16 pasos a 2 o 4 pasos. Además, al escalar el esqueleto de PeriodWave de 29M a 70M parámetros para una generalización mejorada, PeriodWave-Turbo logra un rendimiento sin precedentes, con una puntuación de calidad de habla evaluada perceptualmente (PESQ) de 4.454 en el conjunto de datos LibriTTS. Las muestras de audio, el código fuente y los puntos de control estarán disponibles en https://github.com/sh-lee-prml/PeriodWave.
English
This paper introduces PeriodWave-Turbo, a high-fidelity and high-efficient
waveform generation model via adversarial flow matching optimization. Recently,
conditional flow matching (CFM) generative models have been successfully
adopted for waveform generation tasks, leveraging a single vector field
estimation objective for training. Although these models can generate
high-fidelity waveform signals, they require significantly more ODE steps
compared to GAN-based models, which only need a single generation step.
Additionally, the generated samples often lack high-frequency information due
to noisy vector field estimation, which fails to ensure high-frequency
reproduction. To address this limitation, we enhance pre-trained CFM-based
generative models by incorporating a fixed-step generator modification. We
utilized reconstruction losses and adversarial feedback to accelerate
high-fidelity waveform generation. Through adversarial flow matching
optimization, it only requires 1,000 steps of fine-tuning to achieve
state-of-the-art performance across various objective metrics. Moreover, we
significantly reduce inference speed from 16 steps to 2 or 4 steps.
Additionally, by scaling up the backbone of PeriodWave from 29M to 70M
parameters for improved generalization, PeriodWave-Turbo achieves unprecedented
performance, with a perceptual evaluation of speech quality (PESQ) score of
4.454 on the LibriTTS dataset. Audio samples, source code and checkpoints will
be available at https://github.com/sh-lee-prml/PeriodWave.Summary
AI-Generated Summary