MOSS-Audio-Tokenizer: Масштабирование аудиотокенизаторов для будущих фундаментальных моделей обработки аудио
MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models
February 11, 2026
Авторы: Yitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI
Аннотация
Дискретные аудиотокенизаторы являются основой для наделения больших языковых моделей собственными возможностями обработки и генерации аудио. Несмотря на недавний прогресс, существующие подходы часто опираются на предобученные энкодеры, семантическую дистилляцию или гетерогенные архитектуры на основе CNN. Эти решения вводят фиксированные индуктивные смещения, которые ограничивают точность реконструкции и препятствуют эффективному масштабированию. В данной статье мы утверждаем, что дискретная аудиотокенизация должна изучаться полностью сквозным образом с использованием гомогенной и масштабируемой архитектуры. С этой целью мы сначала предлагаем CAT (Causal Audio Tokenizer with Transformer) — чисто трансформерную архитектуру, которая совместно оптимизирует энкодер, квантизатор и декодер с нуля для высокоточной реконструкции. На основе архитектуры CAT мы разрабатываем MOSS-Audio-Tokenizer — крупномасштабный аудиотокенизатор с 1,6 миллиардами параметров, предобученный на 3 миллионах часов разнообразных общих аудиоданных. Мы показываем, что этот простой, полностью сквозной подход, построенный из гомогенных каузальных трансформерных блоков, элегантно масштабируется и обеспечивает высокоточную реконструкцию в различных аудиодоменах. Для речи, звуков и музыки MOSS-Audio-Tokenizer стабильно превосходит предыдущие кодеки в широком диапазоне битрейтов, демонстрируя предсказуемое улучшение с увеличением масштаба. Примечательно, что, используя дискретные токены нашей модели, мы разрабатываем первую чисто авторегрессионную модель синтеза речи (TTS), превосходящую предыдущие неавторегрессионные и каскадные системы. Кроме того, MOSS-Audio-Tokenizer позволяет достичь конкурентоспособной производительности в задаче автоматического распознавания речи (ASR) без вспомогательных энкодеров. Наши результаты позиционируют архитектуру CAT как унифицированный, масштабируемый интерфейс для следующего поколения собственных базовых аудиомоделей.
English
Discrete audio tokenizers are fundamental to empowering large language models with native audio processing and generation capabilities. Despite recent progress, existing approaches often rely on pretrained encoders, semantic distillation, or heterogeneous CNN-based architectures. These designs introduce fixed inductive biases that limit reconstruction fidelity and hinder effective scaling. In this paper, we argue that discrete audio tokenization should be learned fully end-to-end using a homogeneous and scalable architecture. To this end, we first propose CAT (Causal Audio Tokenizer with Transformer), a purely Transformer-based architecture that jointly optimizes the encoder, quantizer, and decoder from scratch for high-fidelity reconstruction. Building on the CAT architecture, we develop MOSS-Audio-Tokenizer, a large-scale audio tokenizer featuring 1.6 billion parameters, pre-trained on 3 million hours of diverse, general audio data. We show that this simple, fully end-to-end approach built from homogeneous, causal Transformer blocks scales gracefully and supports high-fidelity reconstruction across diverse audio domains. Across speech, sound, and music, MOSS-Audio-Tokenizer consistently outperforms prior codecs over a wide range of bitrates, while exhibiting predictable improvements with increased scale. Notably, leveraging the discrete tokens from our model, we develop the first purely autoregressive TTS model that surpasses prior non-autoregressive and cascaded systems. Furthermore, MOSS-Audio-Tokenizer enables competitive ASR performance without auxiliary encoders. Our findings position the CAT architecture as a unified, scalable interface for the next generation of native audio foundation models.