ChatPaper.aiChatPaper

적대적 흐름을 통한 고품질 파형 생성 가속화 매칭 최적화

Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization

August 15, 2024
저자: Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
cs.AI

초록

본 논문은 적대적 흐름 일치 최적화를 통해 고도의 정밀도와 효율성을 갖는 Waveform 생성 모델인 PeriodWave-Turbo를 소개합니다. 최근에는 조건적 흐름 일치(CFM) 생성 모델이 waveform 생성 작업에 성공적으로 도입되어, 훈련을 위해 단일 벡터 필드 추정 목표를 활용합니다. 이러한 모델은 고도의 정밀도 waveform 신호를 생성할 수 있지만, GAN 기반 모델에 비해 더 많은 ODE 단계가 필요하며, 단일 생성 단계만 필요한 GAN 기반 모델과 비교하여 상당히 많은 시간이 소요됩니다. 또한, 생성된 샘플은 종종 노이즈가 있는 벡터 필드 추정으로 인해 고주파 정보가 부족하여 고주파 재현을 보장하지 못합니다. 이 한계를 극복하기 위해, 사전 훈련된 CFM 기반 생성 모델을 개선하기 위해 고정 단계 생성기 수정을 통합했습니다. 우리는 재구성 손실과 적대적 피드백을 활용하여 고도의 정밀도 waveform 생성을 가속화했습니다. 적대적 흐름 일치 최적화를 통해, 다양한 목표 지표에서 최첨단 성능을 달성하기 위해 1,000 단계의 미세 조정만 필요합니다. 또한, 추론 속도를 16 단계에서 2 또는 4 단계로 크게 줄였습니다. 더불어, 일반화를 향상시키기 위해 PeriodWave의 백본을 29M에서 70M 매개변수로 확장함으로써, PeriodWave-Turbo는 LibriTTS 데이터셋에서 4.454의 PESQ 점수를 달성하는 전례없는 성능을 보여줍니다. 오디오 샘플, 소스 코드 및 체크포인트는 https://github.com/sh-lee-prml/PeriodWave에서 제공될 예정입니다.
English
This paper introduces PeriodWave-Turbo, a high-fidelity and high-efficient waveform generation model via adversarial flow matching optimization. Recently, conditional flow matching (CFM) generative models have been successfully adopted for waveform generation tasks, leveraging a single vector field estimation objective for training. Although these models can generate high-fidelity waveform signals, they require significantly more ODE steps compared to GAN-based models, which only need a single generation step. Additionally, the generated samples often lack high-frequency information due to noisy vector field estimation, which fails to ensure high-frequency reproduction. To address this limitation, we enhance pre-trained CFM-based generative models by incorporating a fixed-step generator modification. We utilized reconstruction losses and adversarial feedback to accelerate high-fidelity waveform generation. Through adversarial flow matching optimization, it only requires 1,000 steps of fine-tuning to achieve state-of-the-art performance across various objective metrics. Moreover, we significantly reduce inference speed from 16 steps to 2 or 4 steps. Additionally, by scaling up the backbone of PeriodWave from 29M to 70M parameters for improved generalization, PeriodWave-Turbo achieves unprecedented performance, with a perceptual evaluation of speech quality (PESQ) score of 4.454 on the LibriTTS dataset. Audio samples, source code and checkpoints will be available at https://github.com/sh-lee-prml/PeriodWave.

Summary

AI-Generated Summary

PDF114November 26, 2024