DiffusionVL: 任意の自己回帰モデルを拡散視覚言語モデルに変換する
DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models
December 17, 2025
著者: Lunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang
cs.AI
要旨
近年のマルチモーダル研究において、拡散パラダイムはその独自のデコード特性により、自己回帰パラダイム(AR)の有望な代替として台頭してきている。しかし、基盤となる拡散言語モデルの能力限界により、拡散型視覚言語モデル(dVLM)の性能は依然として主流モデルに大きく遅れを取っている。この状況は、単純ながら根本的な疑問を提起する:既存の強力なARモデルに基づいてdVLMを構築することは可能なのか?これに対し我々は、任意の強力なARモデルから変換可能なdVLMファミリーであるDiffusionVLを提案する。単純なファインチューニングを通じて、AR事前学習モデルを拡散パラダイムに適応させることに成功した。このアプローチから2つの重要な知見が得られた:(1)ARベースのマルチモーダルモデルから拡散モデルへのパラダイム転換は極めて有効である。(2)AR言語モデルを直接dVLMに変換することも可能であり、LLaVAスタイルの視覚指示チューニングと競合する性能を達成する。さらに、任意長生成とKVキャッシュの再利用をサポートするブロックデコード設計をdVLMに導入し、推論速度を大幅に向上させた。大規模な実験を実施した結果、従来手法に必要とされるデータ量の5%未満で学習したにもかかわらず、DiffusionVLは総合的な性能向上(MMMU-Pro(視覚)ベンチで34.4%、MME(認知)ベンチで37.5%の向上)と、2倍の推論高速化を同時に達成した。モデルとコードはhttps://github.com/hustvl/DiffusionVL で公開されている。
English
In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.