DIFFA-2 : Un modèle de langage massif par diffusion pratique pour la compréhension audio générale
DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding
January 30, 2026
papers.authors: Jiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin
cs.AI
papers.abstract
Les grands modèles de langage audio (LALM) autorégressifs (AR) tels que Qwen-2.5-Omni ont obtenu des performances solides en compréhension et interaction audio, mais leur mise à l'échelle reste coûteuse en données et en calcul, tandis que le décodage strictement séquentiel limite l'efficacité de l'inférence. Les modèles de langage à diffusion (dLLM) ont récemment démontré leur capacité à exploiter efficacement des données d'entraînement limitées, et les travaux antérieurs sur DIFFA indiquent que le remplacement d'une architecture AR par une contrepartie à diffusion peut considérablement améliorer la compréhension audio dans des conditions comparables, bien qu'à une échelle préliminaire sans ajustement instructionnel à grande échelle, alignement des préférences ou schémas de décodage pratiques. Nous présentons DIFFA-2, un LALM pratique basé sur la diffusion pour la compréhension audio générale. DIFFA-2 améliore l'encodeur vocal, utilise des adaptateurs sémantiques et acoustiques doubles, et est entraîné avec un curriculum en quatre étapes combinant alignement sémantique et acoustique, ajustement fin supervisé à grande échelle et optimisation des préférences à variance réduite, en utilisant exclusivement des corpus entièrement open-source. Les expériences sur MMSU, MMAU et MMAR montrent que DIFFA-2 améliore constamment DIFFA et rivalise avec les LALM AR performants dans des budgets d'entraînement pratiques, confirmant que la modélisation par diffusion constitue une architecture viable pour la compréhension audio à grande échelle. Notre code est disponible à l'adresse https://github.com/NKU-HLT/DIFFA.git.
English
Autoregressive (AR) large audio language models (LALMs) such as Qwen-2.5-Omni have achieved strong performance on audio understanding and interaction, but scaling them remains costly in data and computation, and strictly sequential decoding limits inference efficiency. Diffusion large language models (dLLMs) have recently been shown to make effective use of limited training data, and prior work on DIFFA indicates that replacing an AR backbone with a diffusion counterpart can substantially improve audio understanding under matched settings, albeit at a proof-of-concept scale without large-scale instruction tuning, preference alignment, or practical decoding schemes. We introduce DIFFA-2, a practical diffusion-based LALM for general audio understanding. DIFFA-2 upgrades the speech encoder, employs dual semantic and acoustic adapters, and is trained with a four-stage curriculum that combines semantic and acoustic alignment, large-scale supervised fine-tuning, and variance-reduced preference optimization, using only fully open-source corpora. Experiments on MMSU, MMAU, and MMAR show that DIFFA-2 consistently improves over DIFFA and is competitive to strong AR LALMs under practical training budgets, supporting diffusion-based modeling is a viable backbone for large-scale audio understanding. Our code is available at https://github.com/NKU-HLT/DIFFA.git.