MOSS-Audio-Tokenizer: Escalonamento de Tokenizadores de Áudio para Futuros Modelos de Base de Áudio

Resumo

Os tokenizadores de áudio discretos são fundamentais para capacitar modelos de linguagem de grande escala com capacidades nativas de processamento e geração de áudio. Apesar dos progressos recentes, as abordagens existentes frequentemente dependem de codificadores pré-treinados, destilação semântica ou arquiteturas heterogéneas baseadas em CNN. Estes projetos introduzem vieses indutivos fixos que limitam a fidelidade de reconstrução e dificultam a escalabilidade eficaz. Neste artigo, argumentamos que a tokenização de áudio discreta deve ser aprendida de forma totalmente end-to-end usando uma arquitetura homogénea e escalável. Para esse fim, propomos primeiro o CAT (Causal Audio Tokenizer with Transformer), uma arquitetura puramente baseada em Transformer que otimiza conjuntamente o codificador, o quantizador e o decodificador a partir do zero para uma reconstrução de alta fidelidade. Com base na arquitetura CAT, desenvolvemos o MOSS-Audio-Tokenizer, um tokenizador de áudio de grande escala com 1,6 mil milhões de parâmetros, pré-treinado em 3 milhões de horas de dados de áudio diversos e gerais. Mostramos que esta abordagem simples, totalmente end-to-end, construída a partir de blocos Transformer homogéneos e causais, escala de forma graciosa e suporta reconstrução de alta fidelidade em diversos domínios de áudio. Em discurso, som e música, o MOSS-Audio-Tokenizer supera consistentemente os codecs anteriores numa ampla gama de taxas de bits, ao mesmo tempo que exibe melhorias previsíveis com o aumento de escala. Notavelmente, aproveitando os tokens discretos do nosso modelo, desenvolvemos o primeiro modelo TTS puramente autoregressivo que supera os sistemas não autoregressivos e em cascata anteriores. Além disso, o MOSS-Audio-Tokenizer permite um desempenho competitivo em ASR sem codificadores auxiliares. As nossas descobertas posicionam a arquitetura CAT como uma interface unificada e escalável para a próxima geração de modelos de base de áudio nativos.

English

Discrete audio tokenizers are fundamental to empowering large language models with native audio processing and generation capabilities. Despite recent progress, existing approaches often rely on pretrained encoders, semantic distillation, or heterogeneous CNN-based architectures. These designs introduce fixed inductive biases that limit reconstruction fidelity and hinder effective scaling. In this paper, we argue that discrete audio tokenization should be learned fully end-to-end using a homogeneous and scalable architecture. To this end, we first propose CAT (Causal Audio Tokenizer with Transformer), a purely Transformer-based architecture that jointly optimizes the encoder, quantizer, and decoder from scratch for high-fidelity reconstruction. Building on the CAT architecture, we develop MOSS-Audio-Tokenizer, a large-scale audio tokenizer featuring 1.6 billion parameters, pre-trained on 3 million hours of diverse, general audio data. We show that this simple, fully end-to-end approach built from homogeneous, causal Transformer blocks scales gracefully and supports high-fidelity reconstruction across diverse audio domains. Across speech, sound, and music, MOSS-Audio-Tokenizer consistently outperforms prior codecs over a wide range of bitrates, while exhibiting predictable improvements with increased scale. Notably, leveraging the discrete tokens from our model, we develop the first purely autoregressive TTS model that surpasses prior non-autoregressive and cascaded systems. Furthermore, MOSS-Audio-Tokenizer enables competitive ASR performance without auxiliary encoders. Our findings position the CAT architecture as a unified, scalable interface for the next generation of native audio foundation models.

MOSS-Audio-Tokenizer: Escalonamento de Tokenizadores de Áudio para Futuros Modelos de Base de Áudio

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

Resumo

Support