ChatPaper.aiChatPaper

MuCodec: Códec de música de ultra baja tasa de bits

MuCodec: Ultra Low-Bitrate Music Codec

September 20, 2024
Autores: Yaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu
cs.AI

Resumen

Los códecs de música son un aspecto vital de la investigación de códecs de audio, y la compresión de ultra bajo bitrate tiene una importancia significativa para la transmisión y generación de música. Debido a la complejidad de los fondos musicales y la riqueza de las voces, depender únicamente de la modelización de información semántica o acústica no puede reconstruir eficazmente música con voces y fondos. Para abordar este problema, proponemos MuCodec, dirigido específicamente a la compresión y reconstrucción de música en ultra bajos bitrates. MuCodec emplea MuEncoder para extraer características acústicas y semánticas, las discretiza con RVQ, y obtiene características Mel-VAE a través de coincidencia de flujos. La música se reconstruye luego utilizando un decodificador MEL-VAE pre-entrenado y HiFi-GAN. MuCodec puede reconstruir música de alta fidelidad a ultra bajos (0.35kbps) o altos bitrates (1.35kbps), logrando los mejores resultados hasta la fecha tanto en métricas subjetivas como objetivas. Código y Demo: https://xuyaoxun.github.io/MuCodec_demo/.
English
Music codecs are a vital aspect of audio codec research, and ultra low-bitrate compression holds significant importance for music transmission and generation. Due to the complexity of music backgrounds and the richness of vocals, solely relying on modeling semantic or acoustic information cannot effectively reconstruct music with both vocals and backgrounds. To address this issue, we propose MuCodec, specifically targeting music compression and reconstruction tasks at ultra low bitrates. MuCodec employs MuEncoder to extract both acoustic and semantic features, discretizes them with RVQ, and obtains Mel-VAE features via flow-matching. The music is then reconstructed using a pre-trained MEL-VAE decoder and HiFi-GAN. MuCodec can reconstruct high-fidelity music at ultra low (0.35kbps) or high bitrates (1.35kbps), achieving the best results to date in both subjective and objective metrics. Code and Demo: https://xuyaoxun.github.io/MuCodec_demo/.

Summary

AI-Generated Summary

PDF242November 16, 2024