ChatPaper.aiChatPaper

UniAudio 2.0: Un Modelo de Lenguaje de Audio Unificado con Tokenización de Audio Factorizada y Alineada con Texto

UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

February 4, 2026
Autores: Dongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
cs.AI

Resumen

Estudiamos dos problemas fundamentales en los modelos de lenguaje de audio: (1) cómo diseñar un tokenizador de audio que pueda servir como representación intermedia tanto para la comprensión como para la generación; y (2) cómo construir un modelo fundacional de audio que generalice en entornos de pocos ejemplos (few-shot) y cero ejemplos (zero-shot), análogo a los grandes modelos de lenguaje. Con este fin, realizamos las dos siguientes contribuciones. En primer lugar, proponemos ReasoningCodec, un códec de audio discreto que factoriza el audio en (i) tokens de razonamiento, que codifican representaciones de análisis y planificación de alto nivel alineadas con el texto para la comprensión de audio y la generación jerárquica, y (ii) tokens de reconstrucción, que codifican indicios acústicos ricos en semántica para la reconstrucción de waveforms de alta fidelidad. Este diseño logra un rendimiento en comprensión comparable a las fuertes representaciones continuas, mientras mejora la calidad de generación y la fidelidad de reconstrucción respecto a tokenizadores discretos anteriores. En segundo lugar, introducimos una arquitectura autorregresiva unificada para texto y audio, junto con un entrenamiento multietapa y una construcción de datos multitarea. Utilizando este marco, entrenamos UniAudio 2.0 con 100B tokens de texto y 60B tokens de audio. En una amplia gama de tareas de voz, sonido y música, UniAudio 2.0 ofrece un rendimiento competitivo en evaluaciones dentro del dominio y demuestra una fuerte generalización con pocos y cero ejemplos hacia tareas no vistas. La demostración, el código y los puntos de control estarán disponibles en https://dongchaoyang.top/UniAudio2Demo/.
English
We study two foundational problems in audio language models: (1) how to design an audio tokenizer that can serve as an intermediate representation for both understanding and generation; and (2) how to build an audio foundation model that generalizes in few-shot and zero-shot settings, analogous to large language models. To this end, we make the following two contributions. First, we propose ReasoningCodec, a discrete audio codec that factorizes audio into (i) reasoning tokens, which encode text-aligned, high-level analysis and planning representations for audio understanding and hierarchical generation, and (ii) reconstruction tokens, which encode semantic-rich acoustic cues for high-fidelity waveform reconstruction. This design achieves understanding performance comparable to strong continuous representations while improving generation quality and reconstruction fidelity over prior discrete tokenizers. Second, we introduce a unified autoregressive architecture for text and audio, together with multi-stage training and multi-task data construction. Using this framework, we train UniAudio 2.0 on 100B text tokens and 60B audio tokens. Across a wide range of speech, sound, and music tasks, UniAudio 2.0 performs competitively on in-domain evaluations and demonstrates strong few-shot and zero-shot generalization to unseen tasks. Demo, code, and checkpoints will be available at https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.
PDF12February 7, 2026