ChatPaper.aiChatPaper

DIFFA-2: Ein praktisches Diffusion-Modell für große Sprachmodelle zur allgemeinen Audioverarbeitung

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

January 30, 2026
papers.authors: Jiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin
cs.AI

papers.abstract

Autoregressive (AR) große Audio-Sprachmodelle (LALMs) wie Qwen-2.5-Omni haben eine hohe Leistung im Bereich des Audioverständnisses und der Interaktion erreicht, doch ihre Skalierung bleibt in Bezug auf Daten und Rechenaufwand kostspielig, und die streng sequentielle Decodierung schränkt die Inferenzeffizienz ein. Diffusionsgroßsprachmodelle (dLLMs) haben kürzlich gezeigt, dass sie effektiv begrenzte Trainingsdaten nutzen können, und frühere Arbeiten zu DIFFA deuten darauf hin, dass der Ersatz eines AR-Rückgrats durch ein Diffusionsmodell das Audioverständnis unter vergleichbaren Bedingungen erheblich verbessern kann, allerdings bisher nur im Proof-of-Concept-Maßstab ohne groß angelegtes Instruction Tuning, Preference Alignment oder praktische Decodierschemata. Wir stellen DIFFA-2 vor, ein praxistaugliches, diffusionsbasiertes LALM für allgemeines Audioverständnis. DIFFA-2 verbessert den Sprachencoder, setzt duale semantische und akustische Adapter ein und wird mit einem vierstufigen Curriculum trainiert, das semantische und akustische Ausrichtung, groß angelegtes supervised Fine-Tuning und varianzreduzierte Preference Optimization kombiniert – unter ausschließlicher Verwendung vollständig quelloffener Korpora. Experimente auf MMSU, MMAU und MMAR zeigen, dass DIFFA-2 durchgängig Verbesserungen gegenüber DIFFA erzielt und mit starken AR-LALMs unter praktischen Trainingsbudgets konkurrieren kann, was die Eignung diffusionsbasierter Modellierung als tragfähiges Rückgrat für großskaliges Audioverständnis untermauert. Unser Code ist verfügbar unter https://github.com/NKU-HLT/DIFFA.git.
English
Autoregressive (AR) large audio language models (LALMs) such as Qwen-2.5-Omni have achieved strong performance on audio understanding and interaction, but scaling them remains costly in data and computation, and strictly sequential decoding limits inference efficiency. Diffusion large language models (dLLMs) have recently been shown to make effective use of limited training data, and prior work on DIFFA indicates that replacing an AR backbone with a diffusion counterpart can substantially improve audio understanding under matched settings, albeit at a proof-of-concept scale without large-scale instruction tuning, preference alignment, or practical decoding schemes. We introduce DIFFA-2, a practical diffusion-based LALM for general audio understanding. DIFFA-2 upgrades the speech encoder, employs dual semantic and acoustic adapters, and is trained with a four-stage curriculum that combines semantic and acoustic alignment, large-scale supervised fine-tuning, and variance-reduced preference optimization, using only fully open-source corpora. Experiments on MMSU, MMAU, and MMAR show that DIFFA-2 consistently improves over DIFFA and is competitive to strong AR LALMs under practical training budgets, supporting diffusion-based modeling is a viable backbone for large-scale audio understanding. Our code is available at https://github.com/NKU-HLT/DIFFA.git.
PDF93February 3, 2026