MusicHiFi: Codificación Estéreo de Alta Fidelidad Rápida
MusicHiFi: Fast High-Fidelity Stereo Vocoding
March 15, 2024
Autores: Ge Zhu, Juan-Pablo Caceres, Zhiyao Duan, Nicholas J. Bryan
cs.AI
Resumen
Los modelos de generación de audio y música basados en difusión suelen generar música construyendo una representación en forma de imagen del audio (por ejemplo, un mel-espectrograma) y luego convirtiéndolo en audio utilizando un modelo de reconstrucción de fase o un vocoder. Sin embargo, los vocoders típicos producen audio monofónico en resoluciones más bajas (por ejemplo, 16-24 kHz), lo que limita su efectividad. Proponemos MusicHiFi, un vocoder estereofónico de alta fidelidad y eficiente. Nuestro método emplea una cascada de tres redes generativas adversarias (GANs) que convierten mel-espectrogramas de baja resolución en audio, aumentan la resolución a audio de alta calidad mediante expansión de ancho de banda y convierten el audio a formato estereofónico. En comparación con trabajos anteriores, proponemos 1) una arquitectura unificada de generador y discriminador basada en GANs, junto con un procedimiento de entrenamiento para cada etapa de nuestra cascada, 2) un nuevo módulo de extensión de ancho de banda rápido y casi compatible con el submuestreo, y 3) un nuevo mezclador mono a estéreo rápido y compatible con el downmix que asegura la preservación del contenido monofónico en la salida. Evaluamos nuestro enfoque utilizando pruebas de escucha tanto objetivas como subjetivas y encontramos que nuestro método produce una calidad de audio comparable o superior, un mejor control de espacialización y una velocidad de inferencia significativamente más rápida en comparación con trabajos anteriores. Los ejemplos de sonido están disponibles en https://MusicHiFi.github.io/web/.
English
Diffusion-based audio and music generation models commonly generate music by
constructing an image representation of audio (e.g., a mel-spectrogram) and
then converting it to audio using a phase reconstruction model or vocoder.
Typical vocoders, however, produce monophonic audio at lower resolutions (e.g.,
16-24 kHz), which limits their effectiveness. We propose MusicHiFi -- an
efficient high-fidelity stereophonic vocoder. Our method employs a cascade of
three generative adversarial networks (GANs) that convert low-resolution
mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth
expansion, and upmixes to stereophonic audio. Compared to previous work, we
propose 1) a unified GAN-based generator and discriminator architecture and
training procedure for each stage of our cascade, 2) a new fast, near
downsampling-compatible bandwidth extension module, and 3) a new fast
downmix-compatible mono-to-stereo upmixer that ensures the preservation of
monophonic content in the output. We evaluate our approach using both objective
and subjective listening tests and find our approach yields comparable or
better audio quality, better spatialization control, and significantly faster
inference speed compared to past work. Sound examples are at
https://MusicHiFi.github.io/web/.Summary
AI-Generated Summary