MusicHiFi: 고속 고품질 스테레오 보코딩
MusicHiFi: Fast High-Fidelity Stereo Vocoding
March 15, 2024
저자: Ge Zhu, Juan-Pablo Caceres, Zhiyao Duan, Nicholas J. Bryan
cs.AI
초록
디퓨전 기반 오디오 및 음악 생성 모델은 일반적으로 오디오의 이미지 표현(예: 멜-스펙트로그램)을 구성한 후 위상 재구성 모델 또는 보코더를 사용하여 이를 오디오로 변환함으로써 음악을 생성합니다. 그러나 일반적인 보코더는 낮은 해상도(예: 16-24 kHz)에서 모노포닉 오디오를 생성하므로 그 효과가 제한적입니다. 우리는 MusicHiFi라는 효율적인 고충실도 스테레오포닉 보코더를 제안합니다. 우리의 방법은 낮은 해상도의 멜-스펙트로그램을 오디오로 변환하고, 대역폭 확장을 통해 고해상도 오디오로 업샘플링하며, 스테레오포닉 오디오로 업믹스하는 세 개의 생성적 적대 신경망(GAN) 캐스케이드를 사용합니다. 기존 연구와 비교하여, 우리는 1) 캐스케이드의 각 단계를 위한 통합된 GAN 기반 생성기 및 판별기 아키텍처와 훈련 절차, 2) 새로운 빠르고 다운샘플링과 호환 가능한 대역폭 확장 모듈, 3) 출력에서 모노포닉 콘텐츠의 보존을 보장하는 새로운 빠른 다운믹스 호환 모노-투-스테레오 업믹서를 제안합니다. 우리는 객관적 및 주관적 청취 테스트를 통해 우리의 접근 방식을 평가하고, 기존 연구와 비교하여 비슷하거나 더 나은 오디오 품질, 더 나은 공간화 제어, 그리고 상당히 빠른 추론 속도를 얻음을 확인했습니다. 사운드 예제는 https://MusicHiFi.github.io/web/에서 확인할 수 있습니다.
English
Diffusion-based audio and music generation models commonly generate music by
constructing an image representation of audio (e.g., a mel-spectrogram) and
then converting it to audio using a phase reconstruction model or vocoder.
Typical vocoders, however, produce monophonic audio at lower resolutions (e.g.,
16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an
efficient high-fidelity stereophonic vocoder. Our method employs a cascade of
three generative adversarial networks (GANs) that convert low-resolution
mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth
expansion, and upmixes to stereophonic audio. Compared to previous work, we
propose 1) a unified GAN-based generator and discriminator architecture and
training procedure for each stage of our cascade, 2) a new fast, near
downsampling-compatible bandwidth extension module, and 3) a new fast
downmix-compatible mono-to-stereo upmixer that ensures the preservation of
monophonic content in the output. We evaluate our approach using both objective
and subjective listening tests and find our approach yields comparable or
better audio quality, better spatialization control, and significantly faster
inference speed compared to past work. Sound examples are at
https://MusicHiFi.github.io/web/.Summary
AI-Generated Summary