ChatPaper.aiChatPaper

DIFFA-2:汎用音声理解のための実用的な拡散大規模言語モデル

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

January 30, 2026
著者: Jiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin
cs.AI

要旨

Qwen-2.5-Omniなどの自己回帰(AR)型大規模音声言語モデル(LALM)は、音声理解と対話において強力な性能を達成しているが、そのスケーリングにはデータと計算コストがかかり、厳密に逐次的な復号は推論効率を制限する。拡散大規模言語モデル(dLLM)は、限られた訓練データを効果的に活用することが最近示されており、DIFFAに関する先行研究は、ARバックボーンを拡散モデルに置き換えることで、大規模な指示チューニング、選好調整、実用的な復号方式を伴わない概念実証規模ではあるが、同等の設定下で音声理解を大幅に改善できることを示している。本論文では、汎用的な音声理解のための実用的な拡散ベースLALMであるDIFFA-2を提案する。DIFFA-2は音声エンコーダを改良し、意味的・音響的デュアルアダプタを採用し、完全にオープンソースのコーパスのみを用いて、意味的・音響的アライメント、大規模教師ありファインチューニング、分散低減型選好最適化を組み合わせた4段階カリキュラムで訓練される。MMSU、MMAU、MMARにおける実験により、DIFFA-2はDIFFAを一貫して上回り、実用的な訓練予算下で強力なAR LALMに対抗できる性能を示し、拡散ベースモデリングが大規模音声理解の有望なバックボーンとなり得ることを支持する。コードはhttps://github.com/NKU-HLT/DIFFA.gitで公開されている。
English
Autoregressive (AR) large audio language models (LALMs) such as Qwen-2.5-Omni have achieved strong performance on audio understanding and interaction, but scaling them remains costly in data and computation, and strictly sequential decoding limits inference efficiency. Diffusion large language models (dLLMs) have recently been shown to make effective use of limited training data, and prior work on DIFFA indicates that replacing an AR backbone with a diffusion counterpart can substantially improve audio understanding under matched settings, albeit at a proof-of-concept scale without large-scale instruction tuning, preference alignment, or practical decoding schemes. We introduce DIFFA-2, a practical diffusion-based LALM for general audio understanding. DIFFA-2 upgrades the speech encoder, employs dual semantic and acoustic adapters, and is trained with a four-stage curriculum that combines semantic and acoustic alignment, large-scale supervised fine-tuning, and variance-reduced preference optimization, using only fully open-source corpora. Experiments on MMSU, MMAU, and MMAR show that DIFFA-2 consistently improves over DIFFA and is competitive to strong AR LALMs under practical training budgets, supporting diffusion-based modeling is a viable backbone for large-scale audio understanding. Our code is available at https://github.com/NKU-HLT/DIFFA.git.
PDF93February 3, 2026