MOSS-Audio-Tokenizer : Mise à l'échelle des tokenizers audio pour les futurs modèles fondamentaux de l'audio
MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models
February 11, 2026
papers.authors: Yitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI
papers.abstract
Les tokenizers audio discrets sont fondamentaux pour doter les grands modèles de langage de capacités natives de traitement et de génération audio. Malgré les progrès récents, les approches existantes reposent souvent sur des encodeurs pré-entraînés, une distillation sémantique ou des architectures hétérogènes basées sur des CNN. Ces conceptions introduisent des biais inductifs fixes qui limitent la fidélité de reconstruction et entravent une mise à l'échelle efficace. Dans cet article, nous soutenons que la tokenisation audio discrète devrait être apprise de manière entièrement end-to-end en utilisant une architecture homogène et évolutive. À cette fin, nous proposons d'abord CAT (Causal Audio Tokenizer with Transformer), une architecture purement basée sur Transformer qui optimise conjointement l'encodeur, le quantificateur et le décodeur à partir de zéro pour une reconstruction haute fidélité. En nous appuyant sur l'architecture CAT, nous développons MOSS-Audio-Tokenizer, un tokenizer audio à grande échelle comptant 1,6 milliard de paramètres, pré-entraîné sur 3 millions d'heures de données audio générales et diversifiées. Nous montrons que cette approche simple, entièrement end-to-end, construite à partir de blocs Transformer homogènes et causaux, s'adapte harmonieusement et permet une reconstruction haute fidélité dans divers domaines audio. Qu'il s'agisse de parole, de sons ou de musique, MOSS-Audio-Tokenizer surpasse systématiquement les codecs précédents sur une large plage de débits binaires, tout en présentant des améliorations prévisibles avec l'augmentation de l'échelle. Fait notable, en exploitant les tokens discrets de notre modèle, nous développons le premier modèle TTS purement autorégressif qui dépasse les systèmes non autorégressifs et en cascade antérieurs. De plus, MOSS-Audio-Tokenizer permet des performances ASR compétitives sans encodeurs auxiliaires. Nos résultats positionnent l'architecture CAT comme une interface unifiée et évolutive pour la prochaine génération de modèles de fond audio natifs.
English
Discrete audio tokenizers are fundamental to empowering large language models with native audio processing and generation capabilities. Despite recent progress, existing approaches often rely on pretrained encoders, semantic distillation, or heterogeneous CNN-based architectures. These designs introduce fixed inductive biases that limit reconstruction fidelity and hinder effective scaling. In this paper, we argue that discrete audio tokenization should be learned fully end-to-end using a homogeneous and scalable architecture. To this end, we first propose CAT (Causal Audio Tokenizer with Transformer), a purely Transformer-based architecture that jointly optimizes the encoder, quantizer, and decoder from scratch for high-fidelity reconstruction. Building on the CAT architecture, we develop MOSS-Audio-Tokenizer, a large-scale audio tokenizer featuring 1.6 billion parameters, pre-trained on 3 million hours of diverse, general audio data. We show that this simple, fully end-to-end approach built from homogeneous, causal Transformer blocks scales gracefully and supports high-fidelity reconstruction across diverse audio domains. Across speech, sound, and music, MOSS-Audio-Tokenizer consistently outperforms prior codecs over a wide range of bitrates, while exhibiting predictable improvements with increased scale. Notably, leveraging the discrete tokens from our model, we develop the first purely autoregressive TTS model that surpasses prior non-autoregressive and cascaded systems. Furthermore, MOSS-Audio-Tokenizer enables competitive ASR performance without auxiliary encoders. Our findings position the CAT architecture as a unified, scalable interface for the next generation of native audio foundation models.