ChatPaper.aiChatPaper

MOSS-Audio-Tokenizer: Escalando Tokenizadores de Audio para Futuros Modelos Fundacionales de Audio

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

February 11, 2026
Autores: Yitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

Resumen

Los tokenizadores de audio discretos son fundamentales para dotar a los modelos de lenguaje grande de capacidades nativas de procesamiento y generación de audio. A pesar del progreso reciente, los enfoques existentes a menudo dependen de codificadores preentrenados, destilación semántica o arquitecturas heterogéneas basadas en CNN. Estos diseños introducen sesgos inductivos fijos que limitan la fidelidad de reconstrucción y obstaculizan una escalabilidad efectiva. En este artículo, sostenemos que la tokenización de audio discreta debe aprenderse completamente de extremo a extremo utilizando una arquitectura homogénea y escalable. Con este fin, primero proponemos CAT (Tokenizador de Audio Causal con Transformer), una arquitectura basada puramente en Transformer que optimiza conjuntamente el codificador, el cuantizador y el decodificador desde cero para una reconstrucción de alta fidelidad. Basándonos en la arquitectura CAT, desarrollamos MOSS-Audio-Tokenizer, un tokenizador de audio a gran escala que cuenta con 1.600 millones de parámetros, preentrenado con 3 millones de horas de datos de audio generales y diversos. Demostramos que este enfoque simple, completamente de extremo a extremo, construido con bloques homogéneos de Transformer causales, escala de manera elegante y admite una reconstrucción de alta fidelidad en diversos dominios de audio. En voz, sonido y música, MOSS-Audio-Tokenizer supera consistentemente a los códecs anteriores en un amplio rango de tasas de bits, mostrando mejoras predecibles con el aumento de escala. Notablemente, aprovechando los tokens discretos de nuestro modelo, desarrollamos el primer modelo TTS puramente autorregresivo que supera a los sistemas no autorregresivos y en cascada anteriores. Además, MOSS-Audio-Tokenizer permite un rendimiento competitivo en ASR sin codificadores auxiliares. Nuestros hallazgos posicionan la arquitectura CAT como una interfaz unificada y escalable para la próxima generación de modelos fundacionales nativos de audio.
English
Discrete audio tokenizers are fundamental to empowering large language models with native audio processing and generation capabilities. Despite recent progress, existing approaches often rely on pretrained encoders, semantic distillation, or heterogeneous CNN-based architectures. These designs introduce fixed inductive biases that limit reconstruction fidelity and hinder effective scaling. In this paper, we argue that discrete audio tokenization should be learned fully end-to-end using a homogeneous and scalable architecture. To this end, we first propose CAT (Causal Audio Tokenizer with Transformer), a purely Transformer-based architecture that jointly optimizes the encoder, quantizer, and decoder from scratch for high-fidelity reconstruction. Building on the CAT architecture, we develop MOSS-Audio-Tokenizer, a large-scale audio tokenizer featuring 1.6 billion parameters, pre-trained on 3 million hours of diverse, general audio data. We show that this simple, fully end-to-end approach built from homogeneous, causal Transformer blocks scales gracefully and supports high-fidelity reconstruction across diverse audio domains. Across speech, sound, and music, MOSS-Audio-Tokenizer consistently outperforms prior codecs over a wide range of bitrates, while exhibiting predictable improvements with increased scale. Notably, leveraging the discrete tokens from our model, we develop the first purely autoregressive TTS model that surpasses prior non-autoregressive and cascaded systems. Furthermore, MOSS-Audio-Tokenizer enables competitive ASR performance without auxiliary encoders. Our findings position the CAT architecture as a unified, scalable interface for the next generation of native audio foundation models.
PDF433February 14, 2026