ChatPaper.aiChatPaper

MagiCodec: 高忠実度再構成と生成のためのシンプルなマスク付きガウシアン注入型コーデック

MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation

May 31, 2025
著者: Yakun Song, Jiawei Chen, Xiaobin Zhuang, Chenpeng Du, Ziyang Ma, Jian Wu, Jian Cong, Dongya Jia, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen
cs.AI

要旨

ニューラル音声コーデックは、生の音声波形を離散的なトークン表現に効率的にマッピングする点で大きな進歩を遂げており、現代の音声生成モデルの基盤となっています。しかし、既存のコーデックの多くは、主に再構成品質を最適化することを目的としており、しばしばエンコードされたトークンの下流モデル化可能性を犠牲にしています。このボトルネックを克服する必要性に動機づけられ、我々はMagiCodecを紹介します。これは、単一層のストリーミングTransformerベースの新しい音声コーデックです。MagiCodecは、ガウスノイズ注入と潜在正則化を取り入れた多段階トレーニングパイプラインを設計しており、生成されたコードの意味表現力を向上させながら、高い再構成忠実度を維持することを明示的に目指しています。我々は、周波数領域におけるノイズ注入の効果を解析的に導出し、高周波成分を減衰させ、堅牢なトークン化を促進するその有効性を実証します。広範な実験的評価により、MagiCodecが再構成品質と下流タスクの両方において最先端のコーデックを凌駕することが示されています。特に、MagiCodecによって生成されたトークンは、自然言語で観察されるようなZipf-like分布を示し、言語モデルベースの生成アーキテクチャとの互換性を向上させます。コードと事前学習済みモデルは、https://github.com/Ereboas/MagiCodec で公開されています。
English
Neural audio codecs have made significant strides in efficiently mapping raw audio waveforms into discrete token representations, which are foundational for contemporary audio generative models. However, most existing codecs are optimized primarily for reconstruction quality, often at the expense of the downstream modelability of the encoded tokens. Motivated by the need to overcome this bottleneck, we introduce MagiCodec, a novel single-layer, streaming Transformer-based audio codec. MagiCodec is designed with a multistage training pipeline that incorporates Gaussian noise injection and latent regularization, explicitly targeting the enhancement of semantic expressiveness in the generated codes while preserving high reconstruction fidelity. We analytically derive the effect of noise injection in the frequency domain, demonstrating its efficacy in attenuating high-frequency components and fostering robust tokenization. Extensive experimental evaluations show that MagiCodec surpasses state-of-the-art codecs in both reconstruction quality and downstream tasks. Notably, the tokens produced by MagiCodec exhibit Zipf-like distributions, as observed in natural languages, thereby improving compatibility with language-model-based generative architectures. The code and pre-trained models are available at https://github.com/Ereboas/MagiCodec.
PDF22June 3, 2025