ChatPaper.aiChatPaper

DiffusionVL: Het omzetten van willekeurige autoregressieve modellen naar diffusie vision-language modellen

DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

December 17, 2025
Auteurs: Lunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang
cs.AI

Samenvatting

In recent multimodaal onderzoek is het diffusieparadigma naar voren gekomen als een veelbelovend alternatief voor het autoregressieve paradigma (AR), vanwege zijn unieke decodeervoordelen. Vanwege de capaciteitsbeperkingen van het basale diffusie-taalmodel blijft de prestaties van het diffusie vision-language model (dVLM) echter aanzienlijk achter bij die van mainstream modellen. Dit leidt tot een eenvoudige maar fundamentele vraag: Is het mogelijk om dVLM's te bouwen op basis van bestaande krachtige AR-modellen? Als antwoord hierop stellen wij DiffusionVL voor, een dVLM-familie die kan worden vertaald vanuit elk krachtig AR-model. Door middel van eenvoudige fine-tuning passen we met succes vooraf getrainde AR-modellen aan naar het diffusieparadigma. Deze aanpak levert twee belangrijke observaties op: (1) De paradigmaverschuiving van AR-gebaseerde multimodale modellen naar diffusie is opmerkelijk effectief. (2) Directe conversie van een AR-taalmodel naar een dVLM is eveneens haalbaar, waarbij prestaties worden bereikt die concurrerend zijn met LLaVA-stijl visuele-instructie-afstemming. Verder introduceren wij een blokdecodeerontwerp in dVLM's dat generatie van willekeurige lengte ondersteunt en hergebruik van KV-cache mogelijk maakt, wat een aanzienlijke versnelling van de inferentie oplevert. Wij voeren een groot aantal experimenten uit. Ondanks training met minder dan 5% van de data die eerdere methoden vereisen, behaalt DiffusionVL een algehele prestatieverbetering – een winst van 34,4% op de MMMU-Pro (vision) benchmark en 37,5% winst op de MME (Cog.) benchmark – naast een 2x snellere inferentie. Het model en de code zijn vrijgegeven op https://github.com/hustvl/DiffusionVL.
English
In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.
PDF132December 19, 2025