ChatPaper.aiChatPaper

MuCodec: Codec de Música de Ultra Baixa Taxa de Bits

MuCodec: Ultra Low-Bitrate Music Codec

September 20, 2024
Autores: Yaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu
cs.AI

Resumo

Os codecs musicais são um aspecto vital da pesquisa de codecs de áudio, e a compressão de ultra baixa taxa de bits tem uma importância significativa para a transmissão e geração de música. Devido à complexidade dos contextos musicais e à riqueza dos vocais, depender exclusivamente da modelagem de informações semânticas ou acústicas não consegue reconstruir efetivamente música com vocais e contextos. Para lidar com esse problema, propomos o MuCodec, direcionado especificamente para compressão e reconstrução de música em taxas de bits ultra baixas. O MuCodec utiliza o MuEncoder para extrair características acústicas e semânticas, discretiza-as com o RVQ e obtém características Mel-VAE por meio de correspondência de fluxo. A música é então reconstruída usando um decodificador MEL-VAE pré-treinado e o HiFi-GAN. O MuCodec pode reconstruir música de alta fidelidade em taxas de bits ultra baixas (0,35kbps) ou altas (1,35kbps), alcançando os melhores resultados até o momento em métricas subjetivas e objetivas. Código e Demonstração: https://xuyaoxun.github.io/MuCodec_demo/.
English
Music codecs are a vital aspect of audio codec research, and ultra low-bitrate compression holds significant importance for music transmission and generation. Due to the complexity of music backgrounds and the richness of vocals, solely relying on modeling semantic or acoustic information cannot effectively reconstruct music with both vocals and backgrounds. To address this issue, we propose MuCodec, specifically targeting music compression and reconstruction tasks at ultra low bitrates. MuCodec employs MuEncoder to extract both acoustic and semantic features, discretizes them with RVQ, and obtains Mel-VAE features via flow-matching. The music is then reconstructed using a pre-trained MEL-VAE decoder and HiFi-GAN. MuCodec can reconstruct high-fidelity music at ultra low (0.35kbps) or high bitrates (1.35kbps), achieving the best results to date in both subjective and objective metrics. Code and Demo: https://xuyaoxun.github.io/MuCodec_demo/.

Summary

AI-Generated Summary

PDF242November 16, 2024