DIFFA-2: 범용 오디오 이해를 위한 실용적인 디퓨전 대규모 언어 모델
DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding
January 30, 2026
저자: Jiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin
cs.AI
초록
Qwen-2.5-Omni와 같은 자기회귀(AR) 대규모 오디오 언어 모델(LALMs)은 오디오 이해 및 상호작용에서 강력한 성능을 달성했지만, 이를 확장하기 위해서는 데이터와 계산 비용이 여전히 많이 소요되며, 엄격하게 순차적인 디코딩 방식은 추론 효율을 제한합니다. 최근 확산 대규모 언어 모델(dLLMs)은 제한된 훈련 데이터를 효과적으로 활용할 수 있는 것으로 나타났으며, DIFFA에 관한 선행 연구는 AR 백본을 확산 모델로 대체할 경우 개념 검증 규모(대규모 지시 튜닝, 선호도 정렬 또는 실용적인 디코딩 기법 없이)에서도 동일한 설정 하에 오디오 이해 성능을 크게 향상시킬 수 있음을 보여주었습니다. 본 논문은 일반 오디오 이해를 위한 실용적인 확산 기반 LALM인 DIFFA-2를 소개합니다. DIFFA-2는 음성 인코더를 개선하고, 의미론적 및 음향적 이중 어댑터를 채택하며, 의미론적/음향적 정렬, 대규모 지도 미세 조정, 분산 감소 선호도 최적화를 결합한 4단계 커리큘럼으로 훈련되며, 완전한 오픈소스 코퍼스만을 사용합니다. MMSU, MMAU 및 MMAR에 대한 실험 결과, DIFFA-2는 DIFFA 대비 지속적으로 성능이 향상되며, 실용적인 훈련 예산 내에서 강력한 AR LALM들과 경쟁력을 보여주어 확산 기반 모델링이 대규모 오디오 이해를 위한 실행 가능한 백본이 될 수 있음을 입증합니다. 코드는 https://github.com/NKU-HLT/DIFFA.git에서 확인할 수 있습니다.
English
Autoregressive (AR) large audio language models (LALMs) such as Qwen-2.5-Omni have achieved strong performance on audio understanding and interaction, but scaling them remains costly in data and computation, and strictly sequential decoding limits inference efficiency. Diffusion large language models (dLLMs) have recently been shown to make effective use of limited training data, and prior work on DIFFA indicates that replacing an AR backbone with a diffusion counterpart can substantially improve audio understanding under matched settings, albeit at a proof-of-concept scale without large-scale instruction tuning, preference alignment, or practical decoding schemes. We introduce DIFFA-2, a practical diffusion-based LALM for general audio understanding. DIFFA-2 upgrades the speech encoder, employs dual semantic and acoustic adapters, and is trained with a four-stage curriculum that combines semantic and acoustic alignment, large-scale supervised fine-tuning, and variance-reduced preference optimization, using only fully open-source corpora. Experiments on MMSU, MMAU, and MMAR show that DIFFA-2 consistently improves over DIFFA and is competitive to strong AR LALMs under practical training budgets, supporting diffusion-based modeling is a viable backbone for large-scale audio understanding. Our code is available at https://github.com/NKU-HLT/DIFFA.git.