ChatPaper.aiChatPaper

SemantiCodec: 일반 사운드를 위한 초저비트레이트 시맨틱 오디오 코덱

SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound

April 30, 2024
저자: Haohe Liu, Xuenan Xu, Yi Yuan, Mengyue Wu, Wenwu Wang, Mark D. Plumbley
cs.AI

초록

대규모 언어 모델(LLM)은 오디오를 이산 토큰으로 변환하는 오디오 코덱을 통해 오디오 처리 기술을 크게 발전시켰으며, 이를 통해 언어 모델링 기술을 오디오 데이터에 적용할 수 있게 되었습니다. 그러나 기존 코덱은 높은 비트레이트에서 작동하거나 음성과 같은 특정 도메인에 한정되어 있어 효율적인 언어 모델링에 필요한 의미론적 단서가 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 SemantiCodec이라는 새로운 코덱을 소개합니다. SemantiCodec은 음성, 일반 오디오, 음악 등 다양한 오디오 유형에서 품질 저하 없이 초당 100개 미만의 토큰으로 오디오를 압축할 수 있도록 설계되었습니다. SemantiCodec은 이중 인코더 아키텍처를 특징으로 합니다: 자기 지도 학습 방식의 AudioMAE를 사용한 의미론적 인코더는 광범위한 오디오 데이터에 대해 k-means 클러스터링을 통해 이산화되며, 나머지 세부 사항을 포착하기 위한 음향 인코더가 함께 사용됩니다. 의미론적 인코더와 음향 인코더의 출력은 확산 모델 기반 디코더를 통해 오디오를 재구성하는 데 사용됩니다. SemantiCodec은 초당 25, 50, 100개의 토큰 속도를 지원하는 세 가지 변형으로 제공되며, 0.31 kbps에서 1.43 kbps 사이의 초저 비트레이트 범위를 지원합니다. 실험 결과, SemantiCodec은 재구성 품질에서 최신 기술인 Descript 코덱을 크게 능가하는 것으로 나타났습니다. 또한, SemantiCodec은 평가된 모든 오디오 코덱보다 훨씬 더 풍부한 의미론적 정보를 포함하고 있으며, 훨씬 더 낮은 비트레이트에서도 이를 유지하는 것으로 나타났습니다. 우리의 코드와 데모는 https://haoheliu.github.io/SemantiCodec/에서 확인할 수 있습니다.
English
Large language models (LLMs) have significantly advanced audio processing through audio codecs that convert audio into discrete tokens, enabling the application of language modelling techniques to audio data. However, traditional codecs often operate at high bitrates or within narrow domains such as speech and lack the semantic clues required for efficient language modelling. Addressing these challenges, we introduce SemantiCodec, a novel codec designed to compress audio into fewer than a hundred tokens per second across diverse audio types, including speech, general audio, and music, without compromising quality. SemantiCodec features a dual-encoder architecture: a semantic encoder using a self-supervised AudioMAE, discretized using k-means clustering on extensive audio data, and an acoustic encoder to capture the remaining details. The semantic and acoustic encoder outputs are used to reconstruct audio via a diffusion-model-based decoder. SemantiCodec is presented in three variants with token rates of 25, 50, and 100 per second, supporting a range of ultra-low bit rates between 0.31 kbps and 1.43 kbps. Experimental results demonstrate that SemantiCodec significantly outperforms the state-of-the-art Descript codec on reconstruction quality. Our results also suggest that SemantiCodec contains significantly richer semantic information than all evaluated audio codecs, even at significantly lower bitrates. Our code and demos are available at https://haoheliu.github.io/SemantiCodec/.

Summary

AI-Generated Summary

PDF181December 15, 2024