ChatPaper.aiChatPaper

MusicHiFi: Codificação Estéreo de Alta Fidelidade Rápida

MusicHiFi: Fast High-Fidelity Stereo Vocoding

March 15, 2024
Autores: Ge Zhu, Juan-Pablo Caceres, Zhiyao Duan, Nicholas J. Bryan
cs.AI

Resumo

Modelos de geração de áudio e música baseados em difusão geralmente geram música construindo uma representação visual do áudio (por exemplo, um mel-espectrograma) e, em seguida, convertendo-a em áudio usando um modelo de reconstrução de fase ou um vocoder. No entanto, os vocoders típicos produzem áudio monofônico em resoluções mais baixas (por exemplo, 16-24 kHz), o que limita sua eficácia. Propomos o MusicHiFi -- um vocoder estereofônico de alta fidelidade e eficiente. Nosso método emprega uma cascata de três redes generativas adversariais (GANs) que convertem mel-espectrogramas de baixa resolução em áudio, aumentam a resolução para áudio de alta fidelidade por meio de expansão de largura de banda e realizam a conversão para áudio estereofônico. Em comparação com trabalhos anteriores, propomos 1) uma arquitetura unificada de gerador e discriminador baseada em GAN e um procedimento de treinamento para cada estágio da nossa cascata, 2) um novo módulo de extensão de largura de banda rápido e quase compatível com subamostragem, e 3) um novo upmixer mono-para-estéreo rápido e compatível com downmix que garante a preservação do conteúdo monofônico na saída. Avaliamos nossa abordagem usando testes objetivos e subjetivos de escuta e descobrimos que nossa abordagem produz qualidade de áudio comparável ou superior, melhor controle de espacialização e velocidade de inferência significativamente mais rápida em comparação com trabalhos anteriores. Exemplos de áudio estão disponíveis em https://MusicHiFi.github.io/web/.
English
Diffusion-based audio and music generation models commonly generate music by constructing an image representation of audio (e.g., a mel-spectrogram) and then converting it to audio using a phase reconstruction model or vocoder. Typical vocoders, however, produce monophonic audio at lower resolutions (e.g., 16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an efficient high-fidelity stereophonic vocoder. Our method employs a cascade of three generative adversarial networks (GANs) that convert low-resolution mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth expansion, and upmixes to stereophonic audio. Compared to previous work, we propose 1) a unified GAN-based generator and discriminator architecture and training procedure for each stage of our cascade, 2) a new fast, near downsampling-compatible bandwidth extension module, and 3) a new fast downmix-compatible mono-to-stereo upmixer that ensures the preservation of monophonic content in the output. We evaluate our approach using both objective and subjective listening tests and find our approach yields comparable or better audio quality, better spatialization control, and significantly faster inference speed compared to past work. Sound examples are at https://MusicHiFi.github.io/web/.
PDF181February 8, 2026