MuCodec: музыкальный кодек с очень низким битрейтом
MuCodec: Ultra Low-Bitrate Music Codec
September 20, 2024
Авторы: Yaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu
cs.AI
Аннотация
Музыкальные кодеки являются важным аспектом исследований аудио кодеков, и сжатие с очень низким битрейтом имеет большое значение для передачи и генерации музыки. Из-за сложности музыкальных фонов и богатства вокала полагаться исключительно на моделирование семантической или акустической информации не способно эффективно воссоздать музыку с вокалом и фоном. Для решения этой проблемы мы предлагаем MuCodec, специально ориентированный на сжатие и восстановление музыки при очень низких битрейтах. MuCodec использует MuEncoder для извлечения как акустических, так и семантических признаков, дискретизирует их с помощью RVQ и получает признаки Mel-VAE через сопоставление потоков. Затем музыка восстанавливается с использованием предварительно обученного декодера MEL-VAE и HiFi-GAN. MuCodec способен восстанавливать музыку высокой точности при очень низком (0,35 кбит/с) или высоком битрейте (1,35 кбит/с), достигая лучших результатов на сегодняшний день как по субъективным, так и объективным метрикам. Код и демонстрация: https://xuyaoxun.github.io/MuCodec_demo/.
English
Music codecs are a vital aspect of audio codec research, and ultra
low-bitrate compression holds significant importance for music transmission and
generation. Due to the complexity of music backgrounds and the richness of
vocals, solely relying on modeling semantic or acoustic information cannot
effectively reconstruct music with both vocals and backgrounds. To address this
issue, we propose MuCodec, specifically targeting music compression and
reconstruction tasks at ultra low bitrates. MuCodec employs MuEncoder to
extract both acoustic and semantic features, discretizes them with RVQ, and
obtains Mel-VAE features via flow-matching. The music is then reconstructed
using a pre-trained MEL-VAE decoder and HiFi-GAN. MuCodec can reconstruct
high-fidelity music at ultra low (0.35kbps) or high bitrates (1.35kbps),
achieving the best results to date in both subjective and objective metrics.
Code and Demo: https://xuyaoxun.github.io/MuCodec_demo/.Summary
AI-Generated Summary