ChatPaper.aiChatPaper

MOSS-Audio-Tokenizer: 将来の音声基盤モデルに向けた音声トークナイザーのスケーリング

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

February 11, 2026
著者: Yitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

要旨

離散音声トークナイザーは、大規模言語モデルにネイティブな音声処理・生成能力を与える上で不可欠な要素である。近年進展が見られるものの、既存手法は事前学習済みエンコーダ、意味的蒸留、あるいは異種CNNベースのアーキテクチャに依存する場合が多く、固定された帰納バイアスによって再現忠実度が制限され、効果的なスケーリングが妨げられている。本論文では、離散音声トークン化は、均質でスケーラブルなアーキテクチャを用いた完全なエンドツーエンド学習によって習得されるべきであると主張する。この目的に向けて、我々はまずCAT(Causal Audio Tokenizer with Transformer)を提案する。これは高忠実度再構成のために、エンコーダ・量子化器・デコーダを一貫してTransformerベースで構築し、初期状態から共同最適化する純粋なTransformerアーキテクチャである。CATアーキテクチャを発展させ、16億パラメータを有し、300万時間に及ぶ多様な一般音声データで事前学習された大規模音声トークナイザーMOSS-Audio-Tokenizerを開発した。この均質な因果的Transformerブロックで構築された単純な完全エンドツーエンド手法が、優雅にスケールし、多様な音声領域で高忠実度再構成を実現することを実証する。音声・環境音・音楽において、MOSS-Audio-Tokenizerは広範なビットレートで従来のコーデックを一貫して凌駕し、スケール拡大に伴う予測可能な性能向上を示す。特筆すべきは、本モデルから得られる離散トークンを活用して、従来の非自己回帰型システムやカスケード型システムを超える初の純粋自己回帰型TTSモデルを開発した点である。さらにMOSS-Audio-Tokenizerは、補助エンコーダなしで競争力のあるASR性能を実現する。我々の知見は、CATアーキテクチャが次世代ネイティブ音声基盤モデルのための統一かつスケーラブルなインターフェースとして位置付けられることを示唆している。
English
Discrete audio tokenizers are fundamental to empowering large language models with native audio processing and generation capabilities. Despite recent progress, existing approaches often rely on pretrained encoders, semantic distillation, or heterogeneous CNN-based architectures. These designs introduce fixed inductive biases that limit reconstruction fidelity and hinder effective scaling. In this paper, we argue that discrete audio tokenization should be learned fully end-to-end using a homogeneous and scalable architecture. To this end, we first propose CAT (Causal Audio Tokenizer with Transformer), a purely Transformer-based architecture that jointly optimizes the encoder, quantizer, and decoder from scratch for high-fidelity reconstruction. Building on the CAT architecture, we develop MOSS-Audio-Tokenizer, a large-scale audio tokenizer featuring 1.6 billion parameters, pre-trained on 3 million hours of diverse, general audio data. We show that this simple, fully end-to-end approach built from homogeneous, causal Transformer blocks scales gracefully and supports high-fidelity reconstruction across diverse audio domains. Across speech, sound, and music, MOSS-Audio-Tokenizer consistently outperforms prior codecs over a wide range of bitrates, while exhibiting predictable improvements with increased scale. Notably, leveraging the discrete tokens from our model, we develop the first purely autoregressive TTS model that surpasses prior non-autoregressive and cascaded systems. Furthermore, MOSS-Audio-Tokenizer enables competitive ASR performance without auxiliary encoders. Our findings position the CAT architecture as a unified, scalable interface for the next generation of native audio foundation models.
PDF433February 14, 2026