MuCodec: Codec de Música de Ultra Baixa Taxa de Bits
MuCodec: Ultra Low-Bitrate Music Codec
September 20, 2024
Autores: Yaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu
cs.AI
Resumo
Os codecs musicais são um aspecto vital da pesquisa de codecs de áudio, e a compressão de ultra baixa taxa de bits tem uma importância significativa para a transmissão e geração de música. Devido à complexidade dos contextos musicais e à riqueza dos vocais, depender exclusivamente da modelagem de informações semânticas ou acústicas não consegue reconstruir efetivamente música com vocais e contextos. Para lidar com esse problema, propomos o MuCodec, direcionado especificamente para compressão e reconstrução de música em taxas de bits ultra baixas. O MuCodec utiliza o MuEncoder para extrair características acústicas e semânticas, discretiza-as com o RVQ e obtém características Mel-VAE por meio de correspondência de fluxo. A música é então reconstruída usando um decodificador MEL-VAE pré-treinado e o HiFi-GAN. O MuCodec pode reconstruir música de alta fidelidade em taxas de bits ultra baixas (0,35kbps) ou altas (1,35kbps), alcançando os melhores resultados até o momento em métricas subjetivas e objetivas. Código e Demonstração: https://xuyaoxun.github.io/MuCodec_demo/.
English
Music codecs are a vital aspect of audio codec research, and ultra
low-bitrate compression holds significant importance for music transmission and
generation. Due to the complexity of music backgrounds and the richness of
vocals, solely relying on modeling semantic or acoustic information cannot
effectively reconstruct music with both vocals and backgrounds. To address this
issue, we propose MuCodec, specifically targeting music compression and
reconstruction tasks at ultra low bitrates. MuCodec employs MuEncoder to
extract both acoustic and semantic features, discretizes them with RVQ, and
obtains Mel-VAE features via flow-matching. The music is then reconstructed
using a pre-trained MEL-VAE decoder and HiFi-GAN. MuCodec can reconstruct
high-fidelity music at ultra low (0.35kbps) or high bitrates (1.35kbps),
achieving the best results to date in both subjective and objective metrics.
Code and Demo: https://xuyaoxun.github.io/MuCodec_demo/.Summary
AI-Generated Summary