DIFFA-2: Een praktisch diffusiemaalmodel op grote schaal voor algemeen audiobegrip

Samenvatting

Autoregressieve (AR) grote audiotalmodellen (LALMs) zoals Qwen-2.5-Omni hebben sterke prestaties bereikt op het gebied van audiobegrip en interactie, maar het opschalen ervan blijft kostbaar qua data en rekenkracht, en strikt sequentiële decodering beperkt de inferentie-efficiëntie. Diffusie grote taalmodelen (dLLMs) zijn recentelijk effectief gebleken in het benutten van beperkte trainingsdata, en eerder werk aan DIFFA toont aan dat het vervangen van een AR-backbone door een diffusie-equivalent het audiobegrip aanzienlijk kan verbeteren onder gelijke omstandigheden, zij het op een proof-of-concept-schaal zonder grootschalige instructie-afstemming, voorkeursoptimalisatie of praktische decoderingsschema's. Wij introduceren DIFFA-2, een praktisch diffusiegebaseerd LALM voor algemeen audiobegrip. DIFFA-2 upgradeert de spraakencoder, gebruikt duale semantische en akoestische adapters, en wordt getraind met een vierfasig curriculum dat semantische en akoestische alignering combineert met grootschalige supervised fine-tuning en variantie-gereduceerde voorkeursoptimalisatie, waarbij uitsluitend volledig open-source corpora worden gebruikt. Experimenten op MMSU, MMAU en MMAR tonen aan dat DIFFA-2 consistent verbetert ten opzichte van DIFFA en competitief is met sterke AR LALMs binnen praktische trainingsbudgetten, wat aantoont dat diffusiegebaseerde modellering een haalbare backbone is voor grootschalig audiobegrip. Onze code is beschikbaar op https://github.com/NKU-HLT/DIFFA.git.

English

Autoregressive (AR) large audio language models (LALMs) such as Qwen-2.5-Omni have achieved strong performance on audio understanding and interaction, but scaling them remains costly in data and computation, and strictly sequential decoding limits inference efficiency. Diffusion large language models (dLLMs) have recently been shown to make effective use of limited training data, and prior work on DIFFA indicates that replacing an AR backbone with a diffusion counterpart can substantially improve audio understanding under matched settings, albeit at a proof-of-concept scale without large-scale instruction tuning, preference alignment, or practical decoding schemes. We introduce DIFFA-2, a practical diffusion-based LALM for general audio understanding. DIFFA-2 upgrades the speech encoder, employs dual semantic and acoustic adapters, and is trained with a four-stage curriculum that combines semantic and acoustic alignment, large-scale supervised fine-tuning, and variance-reduced preference optimization, using only fully open-source corpora. Experiments on MMSU, MMAU, and MMAR show that DIFFA-2 consistently improves over DIFFA and is competitive to strong AR LALMs under practical training budgets, supporting diffusion-based modeling is a viable backbone for large-scale audio understanding. Our code is available at https://github.com/NKU-HLT/DIFFA.git.

DIFFA-2: Een praktisch diffusiemaalmodel op grote schaal voor algemeen audiobegrip

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Samenvatting

Support