DIFFA-2: Un modello linguistico di grandi dimensioni basato su diffusione per la comprensione audio generale

Abstract

I modelli linguistici audio autoregressivi (AR) di grandi dimensioni (LALM) come Qwen-2.5-Omni hanno ottenuto prestazioni elevate nella comprensione e interazione audio, ma il loro scaling rimane costoso in termini di dati e calcolo, e la decodifica strettamente sequenziale limita l'efficienza inferenziale. I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) hanno recentemente dimostrato di saper utilizzare efficacemente dati di addestramento limitati, e lavori precedenti su DIFFA indicano che sostituire un'architettura AR con una controparte a diffusione può migliorare sostanzialmente la comprensione audio in condizioni equivalenti, sebbene a scala proof-of-concept senza large-scale instruction tuning, allineamento delle preferenze o schemi di decodifica pratici. Presentiamo DIFFA-2, un LALM pratico basato su diffusione per la comprensione audio generale. DIFFA-2 aggiorna l'encoder vocale, impiega adattatori duali semantici e acustici, ed è addestrato con un curriculum in quattro fasi che combina allineamento semantico e acustico, fine-tuning supervisionato su larga scala e ottimizzazione delle preferenze a varianza ridotta, utilizzando esclusivamente corpora completamente open-source. Esperimenti su MMSU, MMAU e MMAR mostrano che DIFFA-2 migliora costantemente rispetto a DIFFA ed è competitivo con forti LALM AR con budget di addestramento pratici, supportando l'idea che la modellazione basata su diffusione sia un'architettura valida per la comprensione audio su larga scala. Il nostro codice è disponibile all'indirizzo https://github.com/NKU-HLT/DIFFA.git.

English

Autoregressive (AR) large audio language models (LALMs) such as Qwen-2.5-Omni have achieved strong performance on audio understanding and interaction, but scaling them remains costly in data and computation, and strictly sequential decoding limits inference efficiency. Diffusion large language models (dLLMs) have recently been shown to make effective use of limited training data, and prior work on DIFFA indicates that replacing an AR backbone with a diffusion counterpart can substantially improve audio understanding under matched settings, albeit at a proof-of-concept scale without large-scale instruction tuning, preference alignment, or practical decoding schemes. We introduce DIFFA-2, a practical diffusion-based LALM for general audio understanding. DIFFA-2 upgrades the speech encoder, employs dual semantic and acoustic adapters, and is trained with a four-stage curriculum that combines semantic and acoustic alignment, large-scale supervised fine-tuning, and variance-reduced preference optimization, using only fully open-source corpora. Experiments on MMSU, MMAU, and MMAR show that DIFFA-2 consistently improves over DIFFA and is competitive to strong AR LALMs under practical training budgets, supporting diffusion-based modeling is a viable backbone for large-scale audio understanding. Our code is available at https://github.com/NKU-HLT/DIFFA.git.

DIFFA-2: Un modello linguistico di grandi dimensioni basato su diffusione per la comprensione audio generale

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Abstract

Support