UniAudio 2.0: un modello linguistico audio unificato con tokenizzazione audio fattorizzata e allineata al testo

Abstract

Studiamo due problemi fondamentali nei modelli linguistici audio: (1) come progettare un tokenizzatore audio che possa servire come rappresentazione intermedia sia per la comprensione che per la generazione; e (2) come costruire un modello fondazionale audio che generalizzi in contesti few-shot e zero-shot, analogamente ai grandi modelli linguistici. A tal fine, apportiamo i seguenti due contributi. In primo luogo, proponiamo ReasoningCodec, un codec audio discreto che scompone l'audio in (i) token di ragionamento, che codificano rappresentazioni di analisi e pianificazione di alto livello, allineate al testo, per la comprensione audio e la generazione gerarchica, e (ii) token di ricostruzione, che codificano indizi acustici semanticamente ricchi per la ricostruzione fedede della forma d'onda. Questo progetto raggiunge prestazioni di comprensione paragonabili a forti rappresentazioni continue, migliorando al contempo la qualità di generazione e la fedeltà di ricostruzione rispetto ai precedenti tokenizzatori discreti. In secondo luogo, introduciamo un'architettura autoregressiva unificata per testo e audio, insieme a un addestramento multi-stadio e a una costruzione di dati multi-task. Utilizzando questo framework, addestriamo UniAudio 2.0 su 100B token di testo e 60B token audio. In un'ampia gamma di compiti relativi a voce, suono e musica, UniAudio 2.0 fornisce prestazioni competitive nelle valutazioni in-dominio e dimostra una forte generalizzazione few-shot e zero-shot verso compiti non visti. Demo, codice e checkpoint saranno disponibili all'indirizzo https://dongchaoyang.top/UniAudio2Demo/.

English

We study two foundational problems in audio language models: (1) how to design an audio tokenizer that can serve as an intermediate representation for both understanding and generation; and (2) how to build an audio foundation model that generalizes in few-shot and zero-shot settings, analogous to large language models. To this end, we make the following two contributions. First, we propose ReasoningCodec, a discrete audio codec that factorizes audio into (i) reasoning tokens, which encode text-aligned, high-level analysis and planning representations for audio understanding and hierarchical generation, and (ii) reconstruction tokens, which encode semantic-rich acoustic cues for high-fidelity waveform reconstruction. This design achieves understanding performance comparable to strong continuous representations while improving generation quality and reconstruction fidelity over prior discrete tokenizers. Second, we introduce a unified autoregressive architecture for text and audio, together with multi-stage training and multi-task data construction. Using this framework, we train UniAudio 2.0 on 100B text tokens and 60B audio tokens. Across a wide range of speech, sound, and music tasks, UniAudio 2.0 performs competitively on in-domain evaluations and demonstrates strong few-shot and zero-shot generalization to unseen tasks. Demo, code, and checkpoints will be available at https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.

UniAudio 2.0: un modello linguistico audio unificato con tokenizzazione audio fattorizzata e allineata al testo

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

Abstract

Support