ChatPaper.aiChatPaper

UniAudio 2.0: Ein vereinheitlichtes Audio-Sprachmodell mit textausgerichteter faktorisierter Audio-Tokenisierung

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

February 4, 2026
papers.authors: Dongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
cs.AI

papers.abstract

Wir untersuchen zwei grundlegende Probleme bei Audio-Sprachmodellen: (1) wie ein Audio-Tokenizer gestaltet werden kann, der als Zwischendarstellung sowohl für das Verständnis als auch für die Generierung dient; und (2) wie ein Audio-Foundation-Modell aufgebaut werden kann, das in Few-Shot- und Zero-Shot-Szenarien generalisiert, analog zu großen Sprachmodellen. Zu diesem Zweck leisten wir die folgenden zwei Beiträge. Erstens schlagen wir ReasoningCodec vor, einen diskreten Audio-Codec, der Audio in (i) Reasoning-Tokens, die textausgerichtete, hochrangige Analyse- und Planungsrepräsentationen für das Audioverständnis und hierarchische Generierung kodieren, und (ii) Rekonstruktions-Tokens, die semantikreiche akustische Hinweise für hochqualitative Wellenformrekonstruktion kodieren, faktorisiert. Dieses Design erreicht ein Verständnis, das mit starken kontinuierlichen Repräsentationen vergleichbar ist, während es die Generierungsqualität und Rekonstruktionstreue gegenüber früheren diskreten Tokenizern verbessert. Zweitens führen wir eine einheitliche autoregressive Architektur für Text und Audio ein, zusammen mit mehrstufigem Training und Multi-Task-Datenkonstruktion. Mit diesem Framework trainieren wir UniAudio 2.0 auf 100B Text-Tokens und 60B Audio-Tokens. Über eine breite Palette von Sprach-, Klang- und Musikaufgaben hinweg zeigt UniAudio 2.0 wettbewerbsfähige Leistungen bei In-Domain-Evaluierungen und demonstriert starke Few-Shot- und Zero-Shot-Generalisation auf ungesehene Aufgaben. Demo, Code und Checkpoints werden unter https://dongchaoyang.top/UniAudio2Demo/ verfügbar sein.
English
We study two foundational problems in audio language models: (1) how to design an audio tokenizer that can serve as an intermediate representation for both understanding and generation; and (2) how to build an audio foundation model that generalizes in few-shot and zero-shot settings, analogous to large language models. To this end, we make the following two contributions. First, we propose ReasoningCodec, a discrete audio codec that factorizes audio into (i) reasoning tokens, which encode text-aligned, high-level analysis and planning representations for audio understanding and hierarchical generation, and (ii) reconstruction tokens, which encode semantic-rich acoustic cues for high-fidelity waveform reconstruction. This design achieves understanding performance comparable to strong continuous representations while improving generation quality and reconstruction fidelity over prior discrete tokenizers. Second, we introduce a unified autoregressive architecture for text and audio, together with multi-stage training and multi-task data construction. Using this framework, we train UniAudio 2.0 on 100B text tokens and 60B audio tokens. Across a wide range of speech, sound, and music tasks, UniAudio 2.0 performs competitively on in-domain evaluations and demonstrates strong few-shot and zero-shot generalization to unseen tasks. Demo, code, and checkpoints will be available at https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.
PDF13February 7, 2026