Acelerando la Generación de Formas de Onda de Alta Fidelidad a través de la Optimización de Coincidencia de Flujos Adversarios

Resumen

Este artículo presenta PeriodWave-Turbo, un modelo de generación de formas de onda de alta fidelidad y alta eficiencia a través de la optimización de emparejamiento de flujo adversarial. Recientemente, los modelos generativos de emparejamiento de flujo condicional (CFM) han sido adoptados con éxito para tareas de generación de formas de onda, aprovechando un objetivo de estimación de campo vectorial único para el entrenamiento. Aunque estos modelos pueden generar señales de formas de onda de alta fidelidad, requieren significativamente más pasos de EDO en comparación con los modelos basados en GAN, que solo necesitan un paso de generación. Además, las muestras generadas a menudo carecen de información de alta frecuencia debido a la estimación ruidosa del campo vectorial, lo que no garantiza una reproducción de alta frecuencia. Para abordar esta limitación, mejoramos los modelos generativos basados en CFM pre-entrenados mediante la incorporación de una modificación de generador de paso fijo. Utilizamos pérdidas de reconstrucción y retroalimentación adversarial para acelerar la generación de formas de onda de alta fidelidad. A través de la optimización de emparejamiento de flujo adversarial, solo se requieren 1,000 pasos de ajuste fino para lograr un rendimiento de vanguardia en diversas métricas objetivas. Además, reducimos significativamente la velocidad de inferencia de 16 pasos a 2 o 4 pasos. Además, al escalar el esqueleto de PeriodWave de 29M a 70M parámetros para una generalización mejorada, PeriodWave-Turbo logra un rendimiento sin precedentes, con una puntuación de calidad de habla evaluada perceptualmente (PESQ) de 4.454 en el conjunto de datos LibriTTS. Las muestras de audio, el código fuente y los puntos de control estarán disponibles en https://github.com/sh-lee-prml/PeriodWave.

English

This paper introduces PeriodWave-Turbo, a high-fidelity and high-efficient waveform generation model via adversarial flow matching optimization. Recently, conditional flow matching (CFM) generative models have been successfully adopted for waveform generation tasks, leveraging a single vector field estimation objective for training. Although these models can generate high-fidelity waveform signals, they require significantly more ODE steps compared to GAN-based models, which only need a single generation step. Additionally, the generated samples often lack high-frequency information due to noisy vector field estimation, which fails to ensure high-frequency reproduction. To address this limitation, we enhance pre-trained CFM-based generative models by incorporating a fixed-step generator modification. We utilized reconstruction losses and adversarial feedback to accelerate high-fidelity waveform generation. Through adversarial flow matching optimization, it only requires 1,000 steps of fine-tuning to achieve state-of-the-art performance across various objective metrics. Moreover, we significantly reduce inference speed from 16 steps to 2 or 4 steps. Additionally, by scaling up the backbone of PeriodWave from 29M to 70M parameters for improved generalization, PeriodWave-Turbo achieves unprecedented performance, with a perceptual evaluation of speech quality (PESQ) score of 4.454 on the LibriTTS dataset. Audio samples, source code and checkpoints will be available at https://github.com/sh-lee-prml/PeriodWave.

Acelerando la Generación de Formas de Onda de Alta Fidelidad a través de la Optimización de Coincidencia de Flujos Adversarios

Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization

Resumen

Support