ChatPaper.aiChatPaper

UniAudio 2.0: 텍스트 정렬 방식의 인수분해 오디오 토큰화를 적용한 통합 오디오 언어 모델

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

February 4, 2026
저자: Dongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
cs.AI

초록

우리는 오디오 언어 모델의 두 가지 기초적인 문제를 연구한다: (1) 이해와 생성을 위한 중간 표현으로 기능할 수 있는 오디오 토크나이저를 어떻게 설계할 것인가; (2) 대규모 언어 모델과 유사하게 퓨샷 및 제로샷 환경에서 일반화되는 오디오 파운데이션 모델을 어떻게 구축할 것인가. 이를 위해 우리는 다음 두 가지 기여를 한다. 첫째, 오디오를 (i) 텍스트와 정렬된 고수준 분석 및 계획 표현을 인코딩하여 오디오 이해와 계층적 생성을 위한 추론 토큰과, (ii) 높은 충실도의 파형 재구성을 위한 의미론적으로 풍부한 음향 단서를 인코딩하는 재구성 토큰으로 분해하는 이산 오디오 코덱인 ReasoningCodec를 제안한다. 이 설계는 강력한 연속 표현에 버금가는 이해 성능을 달성하면서 기존 이산 토크나이저 대비 생성 품질과 재구성 충실도를 향상시킨다. 둘째, 텍스트와 오디오를 위한 통합 자기회귀 아키텍처와 다단계 학습, 다중 작업 데이터 구축을 소개한다. 이 프레임워크를 사용하여 100B 텍스트 토큰과 60B 오디오 토큰으로 UniAudio 2.0을 학습시켰다. 다양한 음성, 사운드, 음악 작업에 걸쳐 UniAudio 2.0은 인도메인 평가에서 경쟁력 있는 성능을 보였으며, 보지 않은 작업에 대한 강력한 퓨샷 및 제로샷 일반화 능력을 입증했다. 데모, 코드, 체크포인트는 https://dongchaoyang.top/UniAudio2Demo/ 에서 확인할 수 있다.
English
We study two foundational problems in audio language models: (1) how to design an audio tokenizer that can serve as an intermediate representation for both understanding and generation; and (2) how to build an audio foundation model that generalizes in few-shot and zero-shot settings, analogous to large language models. To this end, we make the following two contributions. First, we propose ReasoningCodec, a discrete audio codec that factorizes audio into (i) reasoning tokens, which encode text-aligned, high-level analysis and planning representations for audio understanding and hierarchical generation, and (ii) reconstruction tokens, which encode semantic-rich acoustic cues for high-fidelity waveform reconstruction. This design achieves understanding performance comparable to strong continuous representations while improving generation quality and reconstruction fidelity over prior discrete tokenizers. Second, we introduce a unified autoregressive architecture for text and audio, together with multi-stage training and multi-task data construction. Using this framework, we train UniAudio 2.0 on 100B text tokens and 60B audio tokens. Across a wide range of speech, sound, and music tasks, UniAudio 2.0 performs competitively on in-domain evaluations and demonstrates strong few-shot and zero-shot generalization to unseen tasks. Demo, code, and checkpoints will be available at https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.
PDF12February 7, 2026