DIFFA-2: Um Modelo de Linguagem de Grande Porte Baseado em Difusão para Compreensão Geral de Áudio

Resumo

Os modelos de linguagem de áudio (LALMs) autoregressivos (AR) de grande escala, como o Qwen-2.5-Omni, alcançaram um desempenho robusto na compreensão e interação com áudio. No entanto, a sua escalabilidade continua a ser dispendiosa em termos de dados e computação, e a decodificação estritamente sequencial limita a eficiência da inferência. Recentemente, demonstrou-se que os modelos de linguagem de grande escala baseados em difusão (dLLMs) utilizam eficazmente dados de treino limitados, e trabalhos anteriores sobre o DIFFA indicam que substituir uma arquitetura AR por uma contraparte de difusão pode melhorar substancialmente a compreensão de áudio em configurações equivalentes, embora numa escala de prova de conceito, sem ajuste fino em larga escala por instruções, alinhamento de preferências ou esquemas de decodificação práticos. Apresentamos o DIFFA-2, um LALM prático baseado em difusão para compreensão geral de áudio. O DIFFA-2 atualiza o codificador de fala, emprega adaptadores duplos semânticos e acústicos, e é treinado com um currículo de quatro estágios que combina alinhamento semântico e acústico, ajuste fino supervisionado em larga escala e otimização de preferências com variância reduzida, utilizando apenas corpora totalmente de código aberto. Experiências no MMSU, MMAU e MMAR mostram que o DIFFA-2 melhora consistentemente em relação ao DIFFA e é competitivo face a LALMs AR robustos sob orçamentos de treino práticos, apoiando a ideia de que a modelação baseada em difusão é uma arquitetura viável para a compreensão de áudio em larga escala. O nosso código está disponível em https://github.com/NKU-HLT/DIFFA.git.

English

Autoregressive (AR) large audio language models (LALMs) such as Qwen-2.5-Omni have achieved strong performance on audio understanding and interaction, but scaling them remains costly in data and computation, and strictly sequential decoding limits inference efficiency. Diffusion large language models (dLLMs) have recently been shown to make effective use of limited training data, and prior work on DIFFA indicates that replacing an AR backbone with a diffusion counterpart can substantially improve audio understanding under matched settings, albeit at a proof-of-concept scale without large-scale instruction tuning, preference alignment, or practical decoding schemes. We introduce DIFFA-2, a practical diffusion-based LALM for general audio understanding. DIFFA-2 upgrades the speech encoder, employs dual semantic and acoustic adapters, and is trained with a four-stage curriculum that combines semantic and acoustic alignment, large-scale supervised fine-tuning, and variance-reduced preference optimization, using only fully open-source corpora. Experiments on MMSU, MMAU, and MMAR show that DIFFA-2 consistently improves over DIFFA and is competitive to strong AR LALMs under practical training budgets, supporting diffusion-based modeling is a viable backbone for large-scale audio understanding. Our code is available at https://github.com/NKU-HLT/DIFFA.git.

DIFFA-2: Um Modelo de Linguagem de Grande Porte Baseado em Difusão para Compreensão Geral de Áudio

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Resumo

Support