MuCodec: Códec de música de ultra baja tasa de bits
MuCodec: Ultra Low-Bitrate Music Codec
September 20, 2024
Autores: Yaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu
cs.AI
Resumen
Los códecs de música son un aspecto vital de la investigación de códecs de audio, y la compresión de ultra bajo bitrate tiene una importancia significativa para la transmisión y generación de música. Debido a la complejidad de los fondos musicales y la riqueza de las voces, depender únicamente de la modelización de información semántica o acústica no puede reconstruir eficazmente música con voces y fondos. Para abordar este problema, proponemos MuCodec, dirigido específicamente a la compresión y reconstrucción de música en ultra bajos bitrates. MuCodec emplea MuEncoder para extraer características acústicas y semánticas, las discretiza con RVQ, y obtiene características Mel-VAE a través de coincidencia de flujos. La música se reconstruye luego utilizando un decodificador MEL-VAE pre-entrenado y HiFi-GAN. MuCodec puede reconstruir música de alta fidelidad a ultra bajos (0.35kbps) o altos bitrates (1.35kbps), logrando los mejores resultados hasta la fecha tanto en métricas subjetivas como objetivas. Código y Demo: https://xuyaoxun.github.io/MuCodec_demo/.
English
Music codecs are a vital aspect of audio codec research, and ultra
low-bitrate compression holds significant importance for music transmission and
generation. Due to the complexity of music backgrounds and the richness of
vocals, solely relying on modeling semantic or acoustic information cannot
effectively reconstruct music with both vocals and backgrounds. To address this
issue, we propose MuCodec, specifically targeting music compression and
reconstruction tasks at ultra low bitrates. MuCodec employs MuEncoder to
extract both acoustic and semantic features, discretizes them with RVQ, and
obtains Mel-VAE features via flow-matching. The music is then reconstructed
using a pre-trained MEL-VAE decoder and HiFi-GAN. MuCodec can reconstruct
high-fidelity music at ultra low (0.35kbps) or high bitrates (1.35kbps),
achieving the best results to date in both subjective and objective metrics.
Code and Demo: https://xuyaoxun.github.io/MuCodec_demo/.Summary
AI-Generated Summary