ChatPaper.aiChatPaper

MuCodec: 超低ビットレート音楽コーデック

MuCodec: Ultra Low-Bitrate Music Codec

September 20, 2024
著者: Yaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu
cs.AI

要旨

音楽コーデックはオーディオコーデック研究の重要な側面であり、超低ビットレートの圧縮は音楽の送信と生成において重要性を持ちます。音楽の背景の複雑さとボーカルの豊かさから、意味論的または音響情報のモデリングに単独で依存することは、ボーカルと背景を持つ音楽を効果的に再構築することができません。この問題に対処するために、私たちはMuCodecを提案しました。これは、超低ビットレートでの音楽の圧縮と再構築のタスクを特に対象としています。MuCodecは、MuEncoderを使用して音響的および意味的な特徴を抽出し、それらをRVQで離散化し、フローマッチングを介してMel-VAE特徴を取得します。音楽は、事前にトレーニングされたMEL-VAEデコーダーとHiFi-GANを使用して再構築されます。MuCodecは、超低ビットレート(0.35kbps)または高ビットレート(1.35kbps)で高品質な音楽を再構築し、主観的および客観的指標の両方でこれまでで最良の結果を達成しています。コードとデモ: https://xuyaoxun.github.io/MuCodec_demo/.
English
Music codecs are a vital aspect of audio codec research, and ultra low-bitrate compression holds significant importance for music transmission and generation. Due to the complexity of music backgrounds and the richness of vocals, solely relying on modeling semantic or acoustic information cannot effectively reconstruct music with both vocals and backgrounds. To address this issue, we propose MuCodec, specifically targeting music compression and reconstruction tasks at ultra low bitrates. MuCodec employs MuEncoder to extract both acoustic and semantic features, discretizes them with RVQ, and obtains Mel-VAE features via flow-matching. The music is then reconstructed using a pre-trained MEL-VAE decoder and HiFi-GAN. MuCodec can reconstruct high-fidelity music at ultra low (0.35kbps) or high bitrates (1.35kbps), achieving the best results to date in both subjective and objective metrics. Code and Demo: https://xuyaoxun.github.io/MuCodec_demo/.

Summary

AI-Generated Summary

PDF242November 16, 2024