ChatPaper.aiChatPaper

Acelerando a Geração de Formas de Onda de Alta Fidelidade por meio da Otimização de Correspondência de Fluxo Adversarial

Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization

August 15, 2024
Autores: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI

Resumo

Este artigo apresenta o PeriodWave-Turbo, um modelo de geração de formas de onda de alta fidelidade e alta eficiência por meio da otimização de correspondência de fluxo adversarial. Recentemente, modelos generativos de correspondência de fluxo condicional (CFM) têm sido adotados com sucesso para tarefas de geração de formas de onda, aproveitando um único objetivo de estimativa de campo vetorial para treinamento. Embora esses modelos possam gerar sinais de forma de onda de alta fidelidade, eles requerem significativamente mais etapas de EDO em comparação com modelos baseados em GAN, que precisam de apenas uma etapa de geração. Além disso, as amostras geradas frequentemente carecem de informações de alta frequência devido à estimativa ruidosa do campo vetorial, o que falha em garantir a reprodução de alta frequência. Para lidar com essa limitação, aprimoramos modelos generativos baseados em CFM pré-treinados incorporando uma modificação de gerador de etapa fixa. Utilizamos perdas de reconstrução e feedback adversarial para acelerar a geração de formas de onda de alta fidelidade. Através da otimização de correspondência de fluxo adversarial, é necessário apenas 1.000 etapas de ajuste fino para alcançar desempenho de ponta em várias métricas objetivas. Além disso, reduzimos significativamente a velocidade de inferência de 16 etapas para 2 ou 4 etapas. Adicionalmente, ao aumentar a espinha dorsal do PeriodWave de 29M para 70M parâmetros para melhor generalização, o PeriodWave-Turbo alcança um desempenho sem precedentes, com uma pontuação de qualidade de fala avaliada perceptualmente (PESQ) de 4.454 no conjunto de dados LibriTTS. Amostras de áudio, código-fonte e checkpoints estarão disponíveis em https://github.com/sh-lee-prml/PeriodWave.
English
This paper introduces PeriodWave-Turbo, a high-fidelity and high-efficient waveform generation model via adversarial flow matching optimization. Recently, conditional flow matching (CFM) generative models have been successfully adopted for waveform generation tasks, leveraging a single vector field estimation objective for training. Although these models can generate high-fidelity waveform signals, they require significantly more ODE steps compared to GAN-based models, which only need a single generation step. Additionally, the generated samples often lack high-frequency information due to noisy vector field estimation, which fails to ensure high-frequency reproduction. To address this limitation, we enhance pre-trained CFM-based generative models by incorporating a fixed-step generator modification. We utilized reconstruction losses and adversarial feedback to accelerate high-fidelity waveform generation. Through adversarial flow matching optimization, it only requires 1,000 steps of fine-tuning to achieve state-of-the-art performance across various objective metrics. Moreover, we significantly reduce inference speed from 16 steps to 2 or 4 steps. Additionally, by scaling up the backbone of PeriodWave from 29M to 70M parameters for improved generalization, PeriodWave-Turbo achieves unprecedented performance, with a perceptual evaluation of speech quality (PESQ) score of 4.454 on the LibriTTS dataset. Audio samples, source code and checkpoints will be available at https://github.com/sh-lee-prml/PeriodWave.

Summary

AI-Generated Summary

PDF114November 26, 2024