DiffusionVL : Transformer tout modèle autorégressif en modèle de diffusion vision-langage
DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models
December 17, 2025
papers.authors: Lunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang
cs.AI
papers.abstract
Dans les recherches multimodales récentes, le paradigme de diffusion s'est imposé comme une alternative prometteuse au paradigme autorégressif (AR), en raison de ses avantages uniques en décodage. Cependant, en raison des limitations capacitives du modèle de langage de diffusion de base, les performances du modèle de vision et langage par diffusion (dVLM) restent encore significativement inférieures à celles des modèles dominants. Cela soulève une question simple mais fondamentale : Est-il possible de construire des dVLMs à partir de modèles AR puissants existants ? En réponse, nous proposons DiffusionVL, une famille de dVLMs pouvant être traduite à partir de n'importe quel modèle AR performant. Par un simple fine-tuning, nous adaptons avec succès des modèles pré-entraînés AR au paradigme de diffusion. Cette approche révèle deux observations clés : (1) La transition du paradigme des modèles multimodaux basés sur l'AR vers la diffusion est remarquablement efficace. (2) La conversion directe d'un modèle de langage AR en un dVLM est également réalisable, atteignant des performances compétitives avec l'ajustement par instructions visuelles de type LLaVA. De plus, nous introduisons une conception de décodage par blocs dans les dVLMs qui prend en charge une génération de longueur arbitraire et la réutilisation du cache KV, permettant une accélération significative de l'inférence. Nous avons mené de nombreuses expériences. Bien qu'entraîné avec moins de 5 % des données requises par les méthodes antérieures, DiffusionVL obtient une amélioration complète des performances - un gain de 34,4 % sur le benchmark MMMU-Pro (vision) et de 37,5 % sur le benchmark MME (Cog.) - ainsi qu'une accélération de l'inférence par 2x. Le modèle et le code sont disponibles à l'adresse https://github.com/hustvl/DiffusionVL.
English
In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.