ChatPaper.aiChatPaper

MOSS-오디오-토크나이저: 향후 오디오 파운데이션 모델을 위한 오디오 토크나이저 확장

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

February 11, 2026
저자: Yitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

초록

이산 오디오 토크나이저는 대규모 언어 모델에 오디오 처리 및 생성 능력을 부여하는 데 핵심적인 역할을 합니다. 최근 발전에도 불구하고, 기존 접근법은 사전 학습된 인코더, 의미론적 추출 또는 이질적인 CNN 기반 아키텍처에 의존하는 경우가 많습니다. 이러한 설계는 고정된 귀납적 편향을 도입하여 재현 충실도를 제한하고 효과적인 확장을 방해합니다. 본 논문에서는 이산 오디오 토큰화가 동질적이고 확장 가능한 아키텍처를 사용하여 완전한 종단 간 방식으로 학습되어야 함을 주장합니다. 이를 위해 우리는 먼저 CAT(Causal Audio Tokenizer with Transformer)를 제안합니다. 이는 순수 Transformer 기반 아키텍처로, 고충실도 재현을 위해 인코더, 양자화기, 디코더를 처음부터 공동 최적화합니다. CAT 아키텍처를 기반으로 우리는 16억 개의 매개변수를 갖추고 300만 시간의 다양한 일반 오디오 데이터로 사전 학습된 대규모 오디오 토크나이저인 MOSS-Audio-Tokenizer를 개발했습니다. 우리는 이 단순하고 완전한 종단 간 접근법이 동질적인 인과적 Transformer 블록으로 구성되어 우아하게 확장되며 다양한 오디오 영역에 걸쳐 높은 충실도의 재현을 지원함을 보여줍니다. 음성, 사운드, 음악에 걸쳐 MOSS-Audio-Tokenizer는 광범위한 비트레이트에서 기존 코덱을 꾸준히 능가하며, 규모 증가에 따른 예측 가능한 성능 향상을 보입니다. 특히, 우리 모델의 이산 토큰을 활용하여 기존 비자기회귀 및 캐스케이드 시스템을 능가하는 최초의 순수 자기회귀 TTS 모델을 개발했습니다. 더 나아가, MOSS-Audio-Tokenizer는 보조 인코더 없이도 경쟁력 있는 ASR 성능을 가능하게 합니다. 우리의 연구 결과는 CAT 아키텍처를 다음 세대 네이티브 오디오 파운데이션 모델을 위한 통합되고 확장 가능한 인터페이스로 위치시킵니다.
English
Discrete audio tokenizers are fundamental to empowering large language models with native audio processing and generation capabilities. Despite recent progress, existing approaches often rely on pretrained encoders, semantic distillation, or heterogeneous CNN-based architectures. These designs introduce fixed inductive biases that limit reconstruction fidelity and hinder effective scaling. In this paper, we argue that discrete audio tokenization should be learned fully end-to-end using a homogeneous and scalable architecture. To this end, we first propose CAT (Causal Audio Tokenizer with Transformer), a purely Transformer-based architecture that jointly optimizes the encoder, quantizer, and decoder from scratch for high-fidelity reconstruction. Building on the CAT architecture, we develop MOSS-Audio-Tokenizer, a large-scale audio tokenizer featuring 1.6 billion parameters, pre-trained on 3 million hours of diverse, general audio data. We show that this simple, fully end-to-end approach built from homogeneous, causal Transformer blocks scales gracefully and supports high-fidelity reconstruction across diverse audio domains. Across speech, sound, and music, MOSS-Audio-Tokenizer consistently outperforms prior codecs over a wide range of bitrates, while exhibiting predictable improvements with increased scale. Notably, leveraging the discrete tokens from our model, we develop the first purely autoregressive TTS model that surpasses prior non-autoregressive and cascaded systems. Furthermore, MOSS-Audio-Tokenizer enables competitive ASR performance without auxiliary encoders. Our findings position the CAT architecture as a unified, scalable interface for the next generation of native audio foundation models.
PDF433February 14, 2026