ChatPaper.aiChatPaper

MOSS-Audio-Tokenizer: Skalierung von Audio-Tokenizern für zukünftige Audio-Foundation-Modelle

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

February 11, 2026
papers.authors: Yitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

papers.abstract

Diskrete Audio-Tokenizer sind grundlegend, um große Sprachmodelle mit nativen Audioverarbeitungs- und -generierungsfähigkeiten auszustatten. Trotz jüngster Fortschritte stützen sich bestehende Ansätze oft auf vortrainierte Encoder, semantische Distillation oder heterogene CNN-basierte Architekturen. Diese Entwürfe führen feste induktive Verzerrungen ein, die die Rekonstruktionstreue begrenzen und effektives Skalieren behindern. In diesem Beitrag argumentieren wir, dass die diskrete Audio-Tokenisierung vollständig end-to-end mit einer homogenen und skalierbaren Architektur erlernt werden sollte. Zu diesem Zweck schlagen wir zunächst CAT (Causal Audio Tokenizer with Transformer) vor, eine rein Transformer-basierte Architektur, die Encoder, Quantisierer und Decoder gemeinsam ab initio für hochtreue Rekonstruktion optimiert. Aufbauend auf der CAT-Architektur entwickeln wir MOSS-Audio-Tokenizer, einen großskaligen Audio-Tokenizer mit 1,6 Milliarden Parametern, der auf 3 Millionen Stunden vielfältiger, allgemeiner Audiodaten vortrainiert wurde. Wir zeigen, dass dieser einfache, vollständig end-to-end Ansatz, der aus homogenen, kausalen Transformer-Blöcken aufgebaut ist, elegant skaliert und hochwertige Rekonstruktionen über diverse Audiobereiche hinweg unterstützt. Bei Sprache, Geräuschen und Musik übertrifft MOSS-Audio-Tokenizer durchgängig frühere Codecs über einen weiten Bereich von Bitraten und zeigt dabei vorhersehbare Verbesserungen mit zunehmender Skalierung. Bemerkenswerterweise entwickeln wir unter Nutzung der diskreten Token unseres Modells das erste rein autoregressive TTS-Modell, das frühere nicht-autoregressive und kaskadierte Systeme übertrifft. Darüber hinaus ermöglicht MOSS-Audio-Tokenizer wettbewerbsfähige ASR-Leistung ohne Hilfs-Encoder. Unsere Ergebnisse positionieren die CAT-Architektur als eine vereinheitlichte, skalierbare Schnittstelle für die nächste Generation nativer Audio-Foundation-Modelle.
English
Discrete audio tokenizers are fundamental to empowering large language models with native audio processing and generation capabilities. Despite recent progress, existing approaches often rely on pretrained encoders, semantic distillation, or heterogeneous CNN-based architectures. These designs introduce fixed inductive biases that limit reconstruction fidelity and hinder effective scaling. In this paper, we argue that discrete audio tokenization should be learned fully end-to-end using a homogeneous and scalable architecture. To this end, we first propose CAT (Causal Audio Tokenizer with Transformer), a purely Transformer-based architecture that jointly optimizes the encoder, quantizer, and decoder from scratch for high-fidelity reconstruction. Building on the CAT architecture, we develop MOSS-Audio-Tokenizer, a large-scale audio tokenizer featuring 1.6 billion parameters, pre-trained on 3 million hours of diverse, general audio data. We show that this simple, fully end-to-end approach built from homogeneous, causal Transformer blocks scales gracefully and supports high-fidelity reconstruction across diverse audio domains. Across speech, sound, and music, MOSS-Audio-Tokenizer consistently outperforms prior codecs over a wide range of bitrates, while exhibiting predictable improvements with increased scale. Notably, leveraging the discrete tokens from our model, we develop the first purely autoregressive TTS model that surpasses prior non-autoregressive and cascaded systems. Furthermore, MOSS-Audio-Tokenizer enables competitive ASR performance without auxiliary encoders. Our findings position the CAT architecture as a unified, scalable interface for the next generation of native audio foundation models.
PDF433February 14, 2026