MOSS-Audio-Tokenizer: Schaalvergroting van Audio-Tokenizers voor Toekomstige Audio-Foundation-Modellen

Samenvatting

Discrete audiocoderingen vormen de basis voor het toekennen van native audioverwerkings- en generatiecapaciteiten aan grote taalmodel(len). Ondanks recente vooruitgang zijn bestaande methoden vaak afhankelijk van vooraf getrainde encoders, semantische distillatie of heterogene op CNN gebaseerde architecturen. Deze ontwerpen introduceren vaste inductieve vooroordelen die de reconstructiekwaliteit beperken en effectieve schaalvergroting belemmeren. In dit artikel beargumenteren wij dat discrete audiocodering volledig end-to-end moet worden aangeleerd met een homogene en schaalbare architectuur. Hiertoe stellen we eerst CAT (Causal Audio Tokenizer with Transformer) voor, een puur op Transformers gebaseerde architectuur die de encoder, quantizer en decoder vanaf nul gezamenlijk optimaliseert voor hoogwaardige reconstructie. Voortbouwend op de CAT-architectuur ontwikkelen we MOSS-Audio-Tokenizer, een grootschalige audiocodering met 1,6 miljard parameters, voorgetraind op 3 miljoen uur diverse, algemene audiogegevens. Wij tonen aan dat deze eenvoudige, volledig end-to-end aanpak, opgebouwd uit homogene causale Transformer-blokken, elegant schaalt en hoogwaardige reconstructie ondersteunt in diverse audiodomeinen. Voor spraak, geluiden en muziek overtreft MOSS-Audio-Tokenizer consistent eerdere codecs over een breed bitratebereik, terwijl het voorspelbare verbeteringen vertoont bij toenemende schaal. Opmerkelijk is dat we, door gebruik te maken van de discrete tokens van ons model, het eerste puur autoregressieve TTS-model ontwikkelen dat eerdere niet-autoregressieve en gegeneraliseerde systemen overtreft. Bovendien maakt MOSS-Audio-Tokenizer competitieve ASR-prestaties mogelijk zonder hulp-encoders. Onze bevindingen positioneren de CAT-architectuur als een uniforme, schaalbare interface voor de volgende generatie van native audio-foundationmodellen.

English

Discrete audio tokenizers are fundamental to empowering large language models with native audio processing and generation capabilities. Despite recent progress, existing approaches often rely on pretrained encoders, semantic distillation, or heterogeneous CNN-based architectures. These designs introduce fixed inductive biases that limit reconstruction fidelity and hinder effective scaling. In this paper, we argue that discrete audio tokenization should be learned fully end-to-end using a homogeneous and scalable architecture. To this end, we first propose CAT (Causal Audio Tokenizer with Transformer), a purely Transformer-based architecture that jointly optimizes the encoder, quantizer, and decoder from scratch for high-fidelity reconstruction. Building on the CAT architecture, we develop MOSS-Audio-Tokenizer, a large-scale audio tokenizer featuring 1.6 billion parameters, pre-trained on 3 million hours of diverse, general audio data. We show that this simple, fully end-to-end approach built from homogeneous, causal Transformer blocks scales gracefully and supports high-fidelity reconstruction across diverse audio domains. Across speech, sound, and music, MOSS-Audio-Tokenizer consistently outperforms prior codecs over a wide range of bitrates, while exhibiting predictable improvements with increased scale. Notably, leveraging the discrete tokens from our model, we develop the first purely autoregressive TTS model that surpasses prior non-autoregressive and cascaded systems. Furthermore, MOSS-Audio-Tokenizer enables competitive ASR performance without auxiliary encoders. Our findings position the CAT architecture as a unified, scalable interface for the next generation of native audio foundation models.

MOSS-Audio-Tokenizer: Schaalvergroting van Audio-Tokenizers voor Toekomstige Audio-Foundation-Modellen

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

Samenvatting

Support