MagiCodec: 高忠実度再構成と生成のためのシンプルなマスク付きガウシアン注入型コーデック
MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation
May 31, 2025
著者: Yakun Song, Jiawei Chen, Xiaobin Zhuang, Chenpeng Du, Ziyang Ma, Jian Wu, Jian Cong, Dongya Jia, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen
cs.AI
要旨
ニューラル音声コーデックは、生の音声波形を離散的なトークン表現に効率的にマッピングする点で大きな進歩を遂げており、現代の音声生成モデルの基盤となっています。しかし、既存のコーデックの多くは、主に再構成品質を最適化することを目的としており、しばしばエンコードされたトークンの下流モデル化可能性を犠牲にしています。このボトルネックを克服する必要性に動機づけられ、我々はMagiCodecを紹介します。これは、単一層のストリーミングTransformerベースの新しい音声コーデックです。MagiCodecは、ガウスノイズ注入と潜在正則化を取り入れた多段階トレーニングパイプラインを設計しており、生成されたコードの意味表現力を向上させながら、高い再構成忠実度を維持することを明示的に目指しています。我々は、周波数領域におけるノイズ注入の効果を解析的に導出し、高周波成分を減衰させ、堅牢なトークン化を促進するその有効性を実証します。広範な実験的評価により、MagiCodecが再構成品質と下流タスクの両方において最先端のコーデックを凌駕することが示されています。特に、MagiCodecによって生成されたトークンは、自然言語で観察されるようなZipf-like分布を示し、言語モデルベースの生成アーキテクチャとの互換性を向上させます。コードと事前学習済みモデルは、https://github.com/Ereboas/MagiCodec で公開されています。
English
Neural audio codecs have made significant strides in efficiently mapping raw
audio waveforms into discrete token representations, which are foundational for
contemporary audio generative models. However, most existing codecs are
optimized primarily for reconstruction quality, often at the expense of the
downstream modelability of the encoded tokens. Motivated by the need to
overcome this bottleneck, we introduce MagiCodec, a novel
single-layer, streaming Transformer-based audio codec. MagiCodec is designed
with a multistage training pipeline that incorporates Gaussian noise injection
and latent regularization, explicitly targeting the enhancement of semantic
expressiveness in the generated codes while preserving high reconstruction
fidelity. We analytically derive the effect of noise injection in the frequency
domain, demonstrating its efficacy in attenuating high-frequency components and
fostering robust tokenization. Extensive experimental evaluations show that
MagiCodec surpasses state-of-the-art codecs in both reconstruction quality and
downstream tasks. Notably, the tokens produced by MagiCodec exhibit Zipf-like
distributions, as observed in natural languages, thereby improving
compatibility with language-model-based generative architectures. The code and
pre-trained models are available at https://github.com/Ereboas/MagiCodec.