ChatPaper.aiChatPaper

DiffusionVL: Trasformare qualsiasi modello autoregressivo in modelli di diffusione visione-linguaggio

DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

December 17, 2025
Autori: Lunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang
cs.AI

Abstract

Nella recente ricerca multimodale, il paradigma diffusion è emerso come una valida alternativa al paradigma autoregressivo (AR), grazie ai suoi vantaggi unici nel processo di decodifica. Tuttavia, a causa delle limitazioni intrinseche del modello linguistico diffusion di base, le prestazioni del modello di linguaggio visivo diffusion (dVLM) rimangono significativamente inferiori rispetto a quelle dei modelli mainstream. Ciò solleva una domanda semplice ma fondamentale: è possibile costruire dVLM basandosi su potenti modelli AR esistenti? In risposta, proponiamo DiffusionVL, una famiglia di dVLM che può essere tradotta da qualsiasi potente modello AR. Attraverso una semplice messa a punto, adattiamo con successo modelli pre-addestrati AR al paradigma diffusion. Questo approccio porta a due osservazioni chiave: (1) Il cambio di paradigma dai modelli multimodali basati su AR alla diffusion è straordinariamente efficace. (2) Anche la conversione diretta di un modello linguistico AR in un dVLM è fattibile, raggiungendo prestazioni competitive con la sintonizzazione su istruzioni visive di tipo LLaVA. Inoltre, introduciamo nei dVLM una progettazione a decodifica a blocchi che supporta generazione di lunghezza arbitraria e il riutilizzo della cache KV, ottenendo un significativo aumento della velocità di inferenza. Abbiamo condotto un ampio numero di esperimenti. Nonostante l'addestramento con meno del 5% dei dati richiesti dai metodi precedenti, DiffusionVL raggiunge un miglioramento completo delle prestazioni – un guadagno del 34.4% sul benchmark MMMU-Pro (vision) e del 37.5% sul benchmark MME (Cog.) – unito a un raddoppio della velocità di inferenza. Il modello e il codice sono rilasciati su https://github.com/hustvl/DiffusionVL.
English
In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.
PDF132December 19, 2025