ChatPaper.aiChatPaper

MagiCodec: 고품질 재구성 및 생성을 위한 단순 마스크 가우시안 주입 코덱

MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation

May 31, 2025
저자: Yakun Song, Jiawei Chen, Xiaobin Zhuang, Chenpeng Du, Ziyang Ma, Jian Wu, Jian Cong, Dongya Jia, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen
cs.AI

초록

신경망 오디오 코덱은 원시 오디오 파형을 이산 토큰 표현으로 효율적으로 매핑하는 데 있어 상당한 진전을 이루었으며, 이는 현대 오디오 생성 모델의 기초가 됩니다. 그러나 대부분의 기존 코덱은 주로 재구성 품질을 최적화하는 데 초점을 맞추고 있어, 인코딩된 토큰의 하위 작업 모델링 가능성이 희생되는 경우가 많습니다. 이러한 병목 현상을 극복할 필요성에 동기를 부여받아, 우리는 MagiCodec이라는 새로운 단일 계층 스트리밍 트랜스포머 기반 오디오 코덱을 소개합니다. MagiCodec은 가우시안 노이즈 주입과 잠재 정규화를 포함한 다단계 학습 파이프라인을 통해 설계되었으며, 생성된 코드의 의미론적 표현력을 향상시키면서도 높은 재구성 충실도를 유지하는 것을 명시적으로 목표로 합니다. 우리는 주파수 영역에서 노이즈 주입의 효과를 분석적으로 도출하여, 고주파 성분을 감쇠시키고 강력한 토큰화를 촉진하는 데 있어 그 효능을 입증합니다. 광범위한 실험 평가를 통해 MagiCodec이 재구성 품질과 하위 작업 모두에서 최신 코덱을 능가함을 보여줍니다. 특히, MagiCodec이 생성한 토큰은 자연어에서 관찰되는 것과 유사한 Zipf-like 분포를 보여, 언어 모델 기반 생성 아키텍처와의 호환성을 향상시킵니다. 코드와 사전 학습된 모델은 https://github.com/Ereboas/MagiCodec에서 확인할 수 있습니다.
English
Neural audio codecs have made significant strides in efficiently mapping raw audio waveforms into discrete token representations, which are foundational for contemporary audio generative models. However, most existing codecs are optimized primarily for reconstruction quality, often at the expense of the downstream modelability of the encoded tokens. Motivated by the need to overcome this bottleneck, we introduce MagiCodec, a novel single-layer, streaming Transformer-based audio codec. MagiCodec is designed with a multistage training pipeline that incorporates Gaussian noise injection and latent regularization, explicitly targeting the enhancement of semantic expressiveness in the generated codes while preserving high reconstruction fidelity. We analytically derive the effect of noise injection in the frequency domain, demonstrating its efficacy in attenuating high-frequency components and fostering robust tokenization. Extensive experimental evaluations show that MagiCodec surpasses state-of-the-art codecs in both reconstruction quality and downstream tasks. Notably, the tokens produced by MagiCodec exhibit Zipf-like distributions, as observed in natural languages, thereby improving compatibility with language-model-based generative architectures. The code and pre-trained models are available at https://github.com/Ereboas/MagiCodec.
PDF22June 3, 2025