MOSS-Audio-Tokenizer: Scalabilità dei Tokenizzatori Audio per i Futuri Modelli Fondamentali dell'Audio

Abstract

I tokenizzatori audio discreti sono fondamentali per dotare i grandi modelli linguistici di capacità native di elaborazione e generazione audio. Nonostante i recenti progressi, gli approcci esistenti spesso si basano su encoder preaddestrati, distillazione semantica o architetture eterogenee basate su CNN. Questi progetti introducono bias induttivi fissi che limitano la fedeltà di ricostruzione e ostacolano una scalabilità efficace. In questo articolo, sosteniamo che la tokenizzazione audio discreta dovrebbe essere appresa interamente end-to-end utilizzando un'architettura omogenea e scalabile. A tal fine, proponiamo innanzitutto CAT (Causal Audio Tokenizer with Transformer), un'architettura puramente basata su Transformer che ottimizza congiuntamente l'encoder, il quantizzatore e il decoder da zero per una ricostruzione ad alta fedeltà. Sviluppando l'architettura CAT, creiamo MOSS-Audio-Tokenizer, un tokenizzatore audio su larga scala caratterizzato da 1,6 miliardi di parametri, preaddestrato su 3 milioni di ore di dati audio generali e diversificati. Dimostriamo che questo semplice approccio completamente end-to-end, costruito con blocchi Transformer omogenei e causali, scala in modo elegante e supporta una ricostruzione ad alta fedeltà in diversi domini audio. In ambito vocale, sonoro e musicale, MOSS-Audio-Tokenizer supera costantemente i codec precedenti su un'ampia gamma di bitrate, mostrando al contempo miglioramenti prevedibili con l'aumento della scala. Degno di nota è che, sfruttando i token discreti del nostro modello, sviluppiamo il primo modello TTS puramente autoregressivo che supera i precedenti sistemi non autoregressivi e a cascata. Inoltre, MOSS-Audio-Tokenizer consente prestazioni ASR competitive senza encoder ausiliari. I nostri risultati posizionano l'architettura CAT come un'interfaccia unificata e scalabile per la prossima generazione di modelli fondazionali audio nativi.

English

Discrete audio tokenizers are fundamental to empowering large language models with native audio processing and generation capabilities. Despite recent progress, existing approaches often rely on pretrained encoders, semantic distillation, or heterogeneous CNN-based architectures. These designs introduce fixed inductive biases that limit reconstruction fidelity and hinder effective scaling. In this paper, we argue that discrete audio tokenization should be learned fully end-to-end using a homogeneous and scalable architecture. To this end, we first propose CAT (Causal Audio Tokenizer with Transformer), a purely Transformer-based architecture that jointly optimizes the encoder, quantizer, and decoder from scratch for high-fidelity reconstruction. Building on the CAT architecture, we develop MOSS-Audio-Tokenizer, a large-scale audio tokenizer featuring 1.6 billion parameters, pre-trained on 3 million hours of diverse, general audio data. We show that this simple, fully end-to-end approach built from homogeneous, causal Transformer blocks scales gracefully and supports high-fidelity reconstruction across diverse audio domains. Across speech, sound, and music, MOSS-Audio-Tokenizer consistently outperforms prior codecs over a wide range of bitrates, while exhibiting predictable improvements with increased scale. Notably, leveraging the discrete tokens from our model, we develop the first purely autoregressive TTS model that surpasses prior non-autoregressive and cascaded systems. Furthermore, MOSS-Audio-Tokenizer enables competitive ASR performance without auxiliary encoders. Our findings position the CAT architecture as a unified, scalable interface for the next generation of native audio foundation models.

MOSS-Audio-Tokenizer: Scalabilità dei Tokenizzatori Audio per i Futuri Modelli Fondamentali dell'Audio

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

Abstract

Support