MuCodec : Codec musical à très faible débit binaire.
MuCodec: Ultra Low-Bitrate Music Codec
September 20, 2024
Auteurs: Yaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu
cs.AI
Résumé
Les codecs musicaux sont un aspect essentiel de la recherche sur les codecs audio, et la compression à ultra bas débit revêt une importance significative pour la transmission et la génération de musique. En raison de la complexité des arrière-plans musicaux et de la richesse des voix, il n'est pas suffisant de se fier uniquement à la modélisation des informations sémantiques ou acoustiques pour reconstruire efficacement de la musique avec à la fois des voix et des arrière-plans. Pour résoudre ce problème, nous proposons MuCodec, ciblant spécifiquement la compression et la reconstruction de musique à des débits ultra bas. MuCodec utilise MuEncoder pour extraire à la fois des caractéristiques acoustiques et sémantiques, les discrétise avec RVQ, et obtient des caractéristiques Mel-VAE via l'appariement de flux. La musique est ensuite reconstruite en utilisant un décodeur MEL-VAE pré-entraîné et HiFi-GAN. MuCodec peut reconstruire de la musique haute fidélité à des débits ultra bas (0,35 kbps) ou élevés (1,35 kbps), obtenant les meilleurs résultats à ce jour tant en termes de critères subjectifs qu'objectifs. Code et démo : https://xuyaoxun.github.io/MuCodec_demo/.
English
Music codecs are a vital aspect of audio codec research, and ultra
low-bitrate compression holds significant importance for music transmission and
generation. Due to the complexity of music backgrounds and the richness of
vocals, solely relying on modeling semantic or acoustic information cannot
effectively reconstruct music with both vocals and backgrounds. To address this
issue, we propose MuCodec, specifically targeting music compression and
reconstruction tasks at ultra low bitrates. MuCodec employs MuEncoder to
extract both acoustic and semantic features, discretizes them with RVQ, and
obtains Mel-VAE features via flow-matching. The music is then reconstructed
using a pre-trained MEL-VAE decoder and HiFi-GAN. MuCodec can reconstruct
high-fidelity music at ultra low (0.35kbps) or high bitrates (1.35kbps),
achieving the best results to date in both subjective and objective metrics.
Code and Demo: https://xuyaoxun.github.io/MuCodec_demo/.Summary
AI-Generated Summary