MagiCodec: Einfacher maskierter Gauß-injizierter Codec für hochwertige Rekonstruktion und Generierung
MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation
May 31, 2025
Autoren: Yakun Song, Jiawei Chen, Xiaobin Zhuang, Chenpeng Du, Ziyang Ma, Jian Wu, Jian Cong, Dongya Jia, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen
cs.AI
Zusammenfassung
Neurale Audiocodecs haben bedeutende Fortschritte bei der effizienten Abbildung von rohen Audiowellenformen in diskrete Token-Repräsentationen gemacht, die für zeitgenössische Audio-Generierungsmodelle grundlegend sind. Die meisten bestehenden Codecs sind jedoch hauptsächlich auf Rekonstruktionsqualität optimiert, oft auf Kosten der Modellierbarkeit der kodierten Token. Angetrieben von der Notwendigkeit, diesen Engpass zu überwinden, stellen wir MagiCodec vor, einen neuartigen, einlagigen, streamingfähigen Transformer-basierten Audiocodec. MagiCodec wurde mit einem mehrstufigen Trainingspipeline entwickelt, die die Injektion von Gaußschem Rauschen und latente Regularisierung integriert, um gezielt die semantische Ausdruckskraft der generierten Codes zu verbessern, während gleichzeitig eine hohe Rekonstruktionstreue erhalten bleibt. Wir analysieren den Effekt der Rauschinjektion im Frequenzbereich und demonstrieren deren Wirksamkeit bei der Dämpfung von Hochfrequenzkomponenten und der Förderung einer robusten Tokenisierung. Umfangreiche experimentelle Auswertungen zeigen, dass MagiCodec sowohl in der Rekonstruktionsqualität als auch bei nachgelagerten Aufgaben state-of-the-art Codecs übertrifft. Bemerkenswerterweise weisen die von MagiCodec erzeugten Token Zipf-ähnliche Verteilungen auf, wie sie in natürlichen Sprachen beobachtet werden, wodurch die Kompatibilität mit sprachmodellbasierten Generierungsarchitekturen verbessert wird. Der Code und die vortrainierten Modelle sind unter https://github.com/Ereboas/MagiCodec verfügbar.
English
Neural audio codecs have made significant strides in efficiently mapping raw
audio waveforms into discrete token representations, which are foundational for
contemporary audio generative models. However, most existing codecs are
optimized primarily for reconstruction quality, often at the expense of the
downstream modelability of the encoded tokens. Motivated by the need to
overcome this bottleneck, we introduce MagiCodec, a novel
single-layer, streaming Transformer-based audio codec. MagiCodec is designed
with a multistage training pipeline that incorporates Gaussian noise injection
and latent regularization, explicitly targeting the enhancement of semantic
expressiveness in the generated codes while preserving high reconstruction
fidelity. We analytically derive the effect of noise injection in the frequency
domain, demonstrating its efficacy in attenuating high-frequency components and
fostering robust tokenization. Extensive experimental evaluations show that
MagiCodec surpasses state-of-the-art codecs in both reconstruction quality and
downstream tasks. Notably, the tokens produced by MagiCodec exhibit Zipf-like
distributions, as observed in natural languages, thereby improving
compatibility with language-model-based generative architectures. The code and
pre-trained models are available at https://github.com/Ereboas/MagiCodec.