DIFFA-2: Un modelo de lenguaje grande basado en difusión para la comprensión general de audio
DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding
January 30, 2026
Autores: Jiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin
cs.AI
Resumen
Los modelos de lenguaje de audio grandes (LALM) autorregresivos (AR), como Qwen-2.5-Omni, han logrado un rendimiento sólido en comprensión e interacción de audio, pero escalarlos sigue siendo costoso en datos y computación, y el decodificado estrictamente secuencial limita la eficiencia de la inferencia. Recientemente se ha demostrado que los modelos de lenguaje grandes de difusión (dLLM) hacen un uso eficiente de datos de entrenamiento limitados, y trabajos previos sobre DIFFA indican que reemplazar un núcleo AR con una contraparte de difusión puede mejorar sustancialmente la comprensión de audio en condiciones equivalentes, aunque a una escala de prueba de concepto sin ajuste instruccional a gran escala, alineación de preferencias o esquemas de decodificación prácticos. Presentamos DIFFA-2, un LALM práctico basado en difusión para la comprensión general de audio. DIFFA-2 mejora el codificador de voz, emplea adaptadores duales semánticos y acústicos, y se entrena con un currículum de cuatro etapas que combina alineación semántica y acústica, ajuste fino supervisado a gran escala y optimización de preferencias con varianza reducida, utilizando únicamente corpus totalmente de código abierto. Los experimentos en MMSU, MMAU y MMAR muestran que DIFFA-2 mejora consistentemente a DIFFA y es competitivo frente a LALM AR sólidos bajo presupuestos de entrenamiento prácticos, respaldando que el modelado basado en difusión es un núcleo viable para la comprensión de audio a gran escala. Nuestro código está disponible en https://github.com/NKU-HLT/DIFFA.git.
English
Autoregressive (AR) large audio language models (LALMs) such as Qwen-2.5-Omni have achieved strong performance on audio understanding and interaction, but scaling them remains costly in data and computation, and strictly sequential decoding limits inference efficiency. Diffusion large language models (dLLMs) have recently been shown to make effective use of limited training data, and prior work on DIFFA indicates that replacing an AR backbone with a diffusion counterpart can substantially improve audio understanding under matched settings, albeit at a proof-of-concept scale without large-scale instruction tuning, preference alignment, or practical decoding schemes. We introduce DIFFA-2, a practical diffusion-based LALM for general audio understanding. DIFFA-2 upgrades the speech encoder, employs dual semantic and acoustic adapters, and is trained with a four-stage curriculum that combines semantic and acoustic alignment, large-scale supervised fine-tuning, and variance-reduced preference optimization, using only fully open-source corpora. Experiments on MMSU, MMAU, and MMAR show that DIFFA-2 consistently improves over DIFFA and is competitive to strong AR LALMs under practical training budgets, supporting diffusion-based modeling is a viable backbone for large-scale audio understanding. Our code is available at https://github.com/NKU-HLT/DIFFA.git.