ChatPaper.aiChatPaper

DIFFA-2: Практическая диффузионная большая языковая модель для общего понимания аудио

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

January 30, 2026
Авторы: Jiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin
cs.AI

Аннотация

Авторегрессионные (AR) большие аудио-языковые модели (LALM), такие как Qwen-2.5-Omni, демонстрируют высокую производительность в задачах понимания и взаимодействия с аудио, однако их масштабирование остается дорогостоящим с точки зрения данных и вычислений, а строго последовательное декодирование ограничивает эффективность вывода. Диффузионные большие языковые модели (dLLM) недавно показали свою способность эффективно использовать ограниченные обучающие данные, а предыдущие исследования DIFFA показали, что замена AR-архитектуры на диффузионную аналог может существенно улучшить понимание аудио в сопоставимых условиях, хотя и на уровне доказательства концепции — без масштабной инструктивной тонкой настройки, выравнивания предпочтений или практических схем декодирования. Мы представляем DIFFA-2, практическую диффузионную LALM для общего понимания аудио. DIFFA-2 улучшает речевой кодировщик, использует двойные семантические и акустические адаптеры и обучается по четырехэтапной учебной программе, сочетающей семантическое и акустическое выравнивание, масштабную контролируемую тонкую настройку и оптимизацию предпочтений с уменьшенной дисперсией, используя только полностью открытые корпуса. Эксперименты на MMSU, MMAU и MMAR показывают, что DIFFA-2 стабильно превосходит DIFFA и конкурирует с сильными AR LALM при практических бюджетах обучения, подтверждая, что диффузионное моделирование является жизнеспособной основой для масштабного понимания аудио. Наш код доступен по адресу https://github.com/NKU-HLT/DIFFA.git.
English
Autoregressive (AR) large audio language models (LALMs) such as Qwen-2.5-Omni have achieved strong performance on audio understanding and interaction, but scaling them remains costly in data and computation, and strictly sequential decoding limits inference efficiency. Diffusion large language models (dLLMs) have recently been shown to make effective use of limited training data, and prior work on DIFFA indicates that replacing an AR backbone with a diffusion counterpart can substantially improve audio understanding under matched settings, albeit at a proof-of-concept scale without large-scale instruction tuning, preference alignment, or practical decoding schemes. We introduce DIFFA-2, a practical diffusion-based LALM for general audio understanding. DIFFA-2 upgrades the speech encoder, employs dual semantic and acoustic adapters, and is trained with a four-stage curriculum that combines semantic and acoustic alignment, large-scale supervised fine-tuning, and variance-reduced preference optimization, using only fully open-source corpora. Experiments on MMSU, MMAU, and MMAR show that DIFFA-2 consistently improves over DIFFA and is competitive to strong AR LALMs under practical training budgets, supporting diffusion-based modeling is a viable backbone for large-scale audio understanding. Our code is available at https://github.com/NKU-HLT/DIFFA.git.
PDF93February 3, 2026