ChatPaper.aiChatPaper

UniAudio 2.0: テキスト整合型因子化オーディオトークン化を備えた統一音声言語モデル

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

February 4, 2026
著者: Dongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
cs.AI

要旨

我々は、音響言語モデルにおける2つの基礎的問題を研究する:(1) 理解と生成の両方の中間表現として機能する音響トークナイザをいかに設計するか;(2) 大規模言語モデルと同様に、少数事例・零事例設定で汎化する音響基盤モデルをいかに構築するか。この目的のために、以下の2つの貢献を行う。第一に、ReasoningCodecを提案する。これは音響を (i) 音響理解と階層的生成のためのテキスト整合的な高次元分析・計画表現を符号化する推論トークンと、(ii) 高忠実度波形再構成のための意味論的に豊かな音響手がかりを符号化する再構成トークンに分解する離散音響コーデックである。この設計は、強力な連続表現に匹敵する理解性能を達成しつつ、従来の離散トークナイザよりも生成品質と再構成忠実度を向上させる。第二に、テキストと音響の統合的自己回帰アーキテクチャと、多段階学習・多タスクデータ構築を導入する。この枠組みを用いて、100Bのテキストトークンと60Bの音響トークンでUniAudio 2.0を学習させる。多様な音声・音響・音楽タスクにおいて、UniAudio 2.0はドメイン内評価で競争力のある性能を示し、未見タスクへの強力な少数事例・零事例汎化能力を実証する。デモ・コード・チェックポイントはhttps://dongchaoyang.top/UniAudio2Demo/に公開予定である。
English
We study two foundational problems in audio language models: (1) how to design an audio tokenizer that can serve as an intermediate representation for both understanding and generation; and (2) how to build an audio foundation model that generalizes in few-shot and zero-shot settings, analogous to large language models. To this end, we make the following two contributions. First, we propose ReasoningCodec, a discrete audio codec that factorizes audio into (i) reasoning tokens, which encode text-aligned, high-level analysis and planning representations for audio understanding and hierarchical generation, and (ii) reconstruction tokens, which encode semantic-rich acoustic cues for high-fidelity waveform reconstruction. This design achieves understanding performance comparable to strong continuous representations while improving generation quality and reconstruction fidelity over prior discrete tokenizers. Second, we introduce a unified autoregressive architecture for text and audio, together with multi-stage training and multi-task data construction. Using this framework, we train UniAudio 2.0 on 100B text tokens and 60B audio tokens. Across a wide range of speech, sound, and music tasks, UniAudio 2.0 performs competitively on in-domain evaluations and demonstrates strong few-shot and zero-shot generalization to unseen tasks. Demo, code, and checkpoints will be available at https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.
PDF12February 7, 2026