ChatPaper.aiChatPaper

UniAudio 2.0: Een Verenigd Audiomodel met Tekst-Uitgelijnde Gefactoriseerde Audio-Tokenisatie

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

February 4, 2026
Auteurs: Dongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
cs.AI

Samenvatting

Wij onderzoeken twee fundamentele problemen in audiotalmodellen: (1) hoe een audiotokenizer te ontwerpen die kan dienen als intermediaire representatie voor zowel begrip als generatie; en (2) hoe een audiofoundationmodel te bouwen dat generaliseert in few-shot en zero-shot settings, analoog aan grote taalmodel(len). Hiertoe doen wij de volgende twee bijdragen. Ten eerste stellen wij ReasoningCodec voor, een discrete audiocodec die audio factoriseert in (i) redeneertokens, die tekstgealign(e)erde, hoogwaardige analyse- en planningsrepresentaties coderen voor audiobegrip en hiërarchische generatie, en (ii) reconstructietokens, die semantisch rijke akoestische cues coderen voor hoogfideliteitsreconstructie van golfvormen. Dit ontwerp bereikt begripsprestaties vergelijkbaar met sterke continue representaties, terwijl het de generatiekwaliteit en reconstructiefideliteit verbetert ten opzichte van eerdere discrete tokenizers. Ten tweede introduceren wij een verenigde autoregressieve architectuur voor tekst en audio, samen met meerfasentraining en multitaakdataconstructie. Met dit framework trainen wij UniAudio 2.0 op 100B teksttokens en 60B audiotokens. Over een breed scala aan spraak-, geluids- en muziektaken presteert UniAudio 2.0 competitief bij in-domeinevaluaties en toont het sterke few-shot en zero-shotgeneralizatie naar onzichtbare taken. Demo, code en checkpoints zullen beschikbaar zijn op https://dongchaoyang.top/UniAudio2Demo/.
English
We study two foundational problems in audio language models: (1) how to design an audio tokenizer that can serve as an intermediate representation for both understanding and generation; and (2) how to build an audio foundation model that generalizes in few-shot and zero-shot settings, analogous to large language models. To this end, we make the following two contributions. First, we propose ReasoningCodec, a discrete audio codec that factorizes audio into (i) reasoning tokens, which encode text-aligned, high-level analysis and planning representations for audio understanding and hierarchical generation, and (ii) reconstruction tokens, which encode semantic-rich acoustic cues for high-fidelity waveform reconstruction. This design achieves understanding performance comparable to strong continuous representations while improving generation quality and reconstruction fidelity over prior discrete tokenizers. Second, we introduce a unified autoregressive architecture for text and audio, together with multi-stage training and multi-task data construction. Using this framework, we train UniAudio 2.0 on 100B text tokens and 60B audio tokens. Across a wide range of speech, sound, and music tasks, UniAudio 2.0 performs competitively on in-domain evaluations and demonstrates strong few-shot and zero-shot generalization to unseen tasks. Demo, code, and checkpoints will be available at https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.
PDF13February 7, 2026