MagiCodec: 고품질 재구성 및 생성을 위한 단순 마스크 가우시안 주입 코덱
MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation
May 31, 2025
저자: Yakun Song, Jiawei Chen, Xiaobin Zhuang, Chenpeng Du, Ziyang Ma, Jian Wu, Jian Cong, Dongya Jia, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen
cs.AI
초록
신경망 오디오 코덱은 원시 오디오 파형을 이산 토큰 표현으로 효율적으로 매핑하는 데 있어 상당한 진전을 이루었으며, 이는 현대 오디오 생성 모델의 기초가 됩니다. 그러나 대부분의 기존 코덱은 주로 재구성 품질을 최적화하는 데 초점을 맞추고 있어, 인코딩된 토큰의 하위 작업 모델링 가능성이 희생되는 경우가 많습니다. 이러한 병목 현상을 극복할 필요성에 동기를 부여받아, 우리는 MagiCodec이라는 새로운 단일 계층 스트리밍 트랜스포머 기반 오디오 코덱을 소개합니다. MagiCodec은 가우시안 노이즈 주입과 잠재 정규화를 포함한 다단계 학습 파이프라인을 통해 설계되었으며, 생성된 코드의 의미론적 표현력을 향상시키면서도 높은 재구성 충실도를 유지하는 것을 명시적으로 목표로 합니다. 우리는 주파수 영역에서 노이즈 주입의 효과를 분석적으로 도출하여, 고주파 성분을 감쇠시키고 강력한 토큰화를 촉진하는 데 있어 그 효능을 입증합니다. 광범위한 실험 평가를 통해 MagiCodec이 재구성 품질과 하위 작업 모두에서 최신 코덱을 능가함을 보여줍니다. 특히, MagiCodec이 생성한 토큰은 자연어에서 관찰되는 것과 유사한 Zipf-like 분포를 보여, 언어 모델 기반 생성 아키텍처와의 호환성을 향상시킵니다. 코드와 사전 학습된 모델은 https://github.com/Ereboas/MagiCodec에서 확인할 수 있습니다.
English
Neural audio codecs have made significant strides in efficiently mapping raw
audio waveforms into discrete token representations, which are foundational for
contemporary audio generative models. However, most existing codecs are
optimized primarily for reconstruction quality, often at the expense of the
downstream modelability of the encoded tokens. Motivated by the need to
overcome this bottleneck, we introduce MagiCodec, a novel
single-layer, streaming Transformer-based audio codec. MagiCodec is designed
with a multistage training pipeline that incorporates Gaussian noise injection
and latent regularization, explicitly targeting the enhancement of semantic
expressiveness in the generated codes while preserving high reconstruction
fidelity. We analytically derive the effect of noise injection in the frequency
domain, demonstrating its efficacy in attenuating high-frequency components and
fostering robust tokenization. Extensive experimental evaluations show that
MagiCodec surpasses state-of-the-art codecs in both reconstruction quality and
downstream tasks. Notably, the tokens produced by MagiCodec exhibit Zipf-like
distributions, as observed in natural languages, thereby improving
compatibility with language-model-based generative architectures. The code and
pre-trained models are available at https://github.com/Ereboas/MagiCodec.