ChatPaper.aiChatPaper

UniAudio 2.0: Um Modelo de Linguagem de Áudio Unificado com Tokenização de Áudio Fatorizada e Alinhada por Texto

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

February 4, 2026
Autores: Dongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
cs.AI

Resumo

Estudamos dois problemas fundamentais em modelos de linguagem de áudio: (1) como projetar um tokenizador de áudio que possa servir como representação intermediária tanto para compreensão quanto para geração; e (2) como construir um modelo de base para áudio que generalize em configurações de poucos exemplos (few-shot) e zero-shot, análogo aos grandes modelos de linguagem. Para tanto, fazemos as duas seguintes contribuições. Primeiro, propomos o ReasoningCodec, um codec de áudio discreto que fatoriza o áudio em (i) *tokens de raciocínio*, que codificam representações de análise e planeamento de alto nível alinhadas com texto, para compreensão de áudio e geração hierárquica, e (ii) *tokens de reconstrução*, que codificam pistas acústicas ricas em semântica para reconstrução de forma de onda de alta fidelidade. Este projeto alcança desempenho de compreensão comparável a fortes representações contínuas, enquanto melhora a qualidade de geração e a fidelidade de reconstrução em relação a tokenizadores discretos anteriores. Segundo, introduzimos uma arquitetura autoregressiva unificada para texto e áudio, juntamente com treinamento multiestágio e construção de dados multitarefa. Usando este framework, treinamos o UniAudio 2.0 em 100 bilhões de *tokens* de texto e 60 bilhões de *tokens* de áudio. Em uma ampla gama de tarefas de fala, som e música, o UniAudio 2.0 apresenta desempenho competitivo em avaliações de domínio interno e demonstra forte generalização *few-shot* e *zero-shot* para tarefas não vistas. Demonstrações, código e *checkpoints* estarão disponíveis em https://dongchaoyang.top/UniAudio2Demo/.
English
We study two foundational problems in audio language models: (1) how to design an audio tokenizer that can serve as an intermediate representation for both understanding and generation; and (2) how to build an audio foundation model that generalizes in few-shot and zero-shot settings, analogous to large language models. To this end, we make the following two contributions. First, we propose ReasoningCodec, a discrete audio codec that factorizes audio into (i) reasoning tokens, which encode text-aligned, high-level analysis and planning representations for audio understanding and hierarchical generation, and (ii) reconstruction tokens, which encode semantic-rich acoustic cues for high-fidelity waveform reconstruction. This design achieves understanding performance comparable to strong continuous representations while improving generation quality and reconstruction fidelity over prior discrete tokenizers. Second, we introduce a unified autoregressive architecture for text and audio, together with multi-stage training and multi-task data construction. Using this framework, we train UniAudio 2.0 on 100B text tokens and 60B audio tokens. Across a wide range of speech, sound, and music tasks, UniAudio 2.0 performs competitively on in-domain evaluations and demonstrates strong few-shot and zero-shot generalization to unseen tasks. Demo, code, and checkpoints will be available at https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.
PDF13February 7, 2026