ChatPaper.aiChatPaper

UniAudio 2.0 : Un modèle audio unifié avec tokenisation audio factorisée alignée sur le texte

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

February 4, 2026
papers.authors: Dongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
cs.AI

papers.abstract

Nous étudions deux problèmes fondamentaux dans les modèles de langage audio : (1) comment concevoir un tokeniseur audio pouvant servir de représentation intermédiaire pour la compréhension et la génération ; et (2) comment construire un modèle fondation audio généralisant en contexte few-shot et zero-shot, à l'instar des grands modèles de langage. Pour cela, nous apportons deux contributions majeures. Premièrement, nous proposons ReasoningCodec, un codec audio discret qui factorise le signal en (i) tokens de raisonnement, encodant des représentations d'analyse et de planification de haut niveau alignées sur le texte pour la compréhension audio et la génération hiérarchique, et (ii) tokens de reconstruction, capturant des indices acoustiques sémantiquement riches pour une reconstruction fidèle de la forme d'onde. Cette conception atteint des performances de compréhension comparables aux représentations continues tout en améliorant la qualité de génération et la fidélité de reconstruction par rapport aux tokeniseurs discrets antérieurs. Deuxièmement, nous introduisons une architecture autoregressive unifiée pour le texte et l'audio, combinée à un apprentissage multi-étapes et une construction de données multi-tâches. Via ce cadre, nous entraînons UniAudio 2.0 sur 100 milliards de tokens textuels et 60 milliards de tokens audio. Sur un large éventail de tâches vocales, sonores et musicales, UniAudio 2.0 affiche des performances compétitives en évaluation in-domain et démontre une forte généralisation few-shot et zero-shot sur des tâches non vues. Démonstrations, code et points de contrôle seront disponibles sur https://dongchaoyang.top/UniAudio2Demo/.
English
We study two foundational problems in audio language models: (1) how to design an audio tokenizer that can serve as an intermediate representation for both understanding and generation; and (2) how to build an audio foundation model that generalizes in few-shot and zero-shot settings, analogous to large language models. To this end, we make the following two contributions. First, we propose ReasoningCodec, a discrete audio codec that factorizes audio into (i) reasoning tokens, which encode text-aligned, high-level analysis and planning representations for audio understanding and hierarchical generation, and (ii) reconstruction tokens, which encode semantic-rich acoustic cues for high-fidelity waveform reconstruction. This design achieves understanding performance comparable to strong continuous representations while improving generation quality and reconstruction fidelity over prior discrete tokenizers. Second, we introduce a unified autoregressive architecture for text and audio, together with multi-stage training and multi-task data construction. Using this framework, we train UniAudio 2.0 on 100B text tokens and 60B audio tokens. Across a wide range of speech, sound, and music tasks, UniAudio 2.0 performs competitively on in-domain evaluations and demonstrates strong few-shot and zero-shot generalization to unseen tasks. Demo, code, and checkpoints will be available at https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.
PDF12February 7, 2026