DiffusionVL: Traducción de Cualquier Modelo Autoregresivo a Modelos de Difusión de Visión y Lenguaje
DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models
December 17, 2025
Autores: Lunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang
cs.AI
Resumen
En la investigación multimodal reciente, el paradigma de difusión ha surgido como una alternativa prometedora al paradigma autorregresivo (AR), gracias a sus ventajas únicas en la decodificación. Sin embargo, debido a las limitaciones de capacidad del modelo de lenguaje de difusión base, el rendimiento del modelo de lenguaje visual de difusión (dVLM) aún se encuentra significativamente por detrás del de los modelos principales. Esto plantea una pregunta simple pero fundamental: ¿Es posible construir dVLMs basados en los potentes modelos AR existentes? En respuesta, proponemos DiffusionVL, una familia de dVLMs que puede traducirse desde cualquier modelo AR potente. Mediante un simple ajuste fino, adaptamos exitosamente modelos preentrenados AR al paradigma de difusión. Este enfoque produce dos observaciones clave: (1) La transición de paradigma desde los modelos multimodales basados en AR hacia la difusión es notablemente efectiva. (2) La conversión directa de un modelo de lenguaje AR a un dVLM también es viable, logrando un rendimiento competitivo con el ajuste por instrucciones visuales estilo LLaVA. Además, introducimos un diseño de decodificación por bloques en los dVLMs que permite generación de longitud arbitraria y reutilización de la caché KV, logrando una aceleración significativa en la inferencia. Realizamos un gran número de experimentos. A pesar de entrenarse con menos del 5% de los datos requeridos por métodos anteriores, DiffusionVL logra una mejora integral en el rendimiento – un incremento del 34.4% en el benchmark MMMU-Pro (visión) y del 37.5% en el benchmark MME (Cog.) – junto con una aceleración de la inferencia de 2x. El modelo y el código están disponibles en https://github.com/hustvl/DiffusionVL.
English
In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.