UniAudio 2.0: Унифицированная аудио-языковая модель с факторизованной аудио-токенизацией, выровненной по тексту
UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization
February 4, 2026
Авторы: Dongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
cs.AI
Аннотация
Мы исследуем две фундаментальные проблемы в аудио языковых моделях: (1) как разработать аудио токенизатор, способный служить промежуточным представлением как для понимания, так и для генерации; и (2) как построить аудио фундаментальную модель, которая обобщается в условиях few-shot и zero-shot, по аналогии с большими языковыми моделями. Для этого мы делаем два следующих вклада. Во-первых, мы предлагаем ReasoningCodec — дискретный аудио кодек, который факторизует аудио на (i) рассуждающие токены, кодирующие текстово-выровненные, высокоуровневые аналитические и плановые представления для понимания аудио и иерархической генерации, и (ii) реконструкционные токены, кодирующие семантически насыщенные акустические признаки для высококачественной реконструкции waveform. Данная конструкция достигает производительности понимания, сопоставимой с сильными непрерывными представлениями, одновременно улучшая качество генерации и точность реконструкции по сравнению с предыдущими дискретными токенизаторами. Во-вторых, мы представляем унифицированную авторегрессионную архитектуру для текста и аудио, вместе с многоэтапным обучением и построением многозадачных данных. Используя этот фреймворк, мы обучаем UniAudio 2.0 на 100 миллиардах текстовых токенов и 60 миллиардах аудио токенов. В широком спектре задач, связанных с речью, звуком и музыкой, UniAudio 2.0 показывает конкурентоспособные результаты на внутридоменных оценках и демонстрирует сильное обобщение в режимах few-shot и zero-shot на невидимых задачах. Демонстрация, код и контрольные точки будут доступны по адресу https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.
English
We study two foundational problems in audio language models: (1) how to design an audio tokenizer that can serve as an intermediate representation for both understanding and generation; and (2) how to build an audio foundation model that generalizes in few-shot and zero-shot settings, analogous to large language models. To this end, we make the following two contributions. First, we propose ReasoningCodec, a discrete audio codec that factorizes audio into (i) reasoning tokens, which encode text-aligned, high-level analysis and planning representations for audio understanding and hierarchical generation, and (ii) reconstruction tokens, which encode semantic-rich acoustic cues for high-fidelity waveform reconstruction. This design achieves understanding performance comparable to strong continuous representations while improving generation quality and reconstruction fidelity over prior discrete tokenizers. Second, we introduce a unified autoregressive architecture for text and audio, together with multi-stage training and multi-task data construction. Using this framework, we train UniAudio 2.0 on 100B text tokens and 60B audio tokens. Across a wide range of speech, sound, and music tasks, UniAudio 2.0 performs competitively on in-domain evaluations and demonstrates strong few-shot and zero-shot generalization to unseen tasks. Demo, code, and checkpoints will be available at https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.