DiffusionVL: 모든 자기회귀 모델을 확산 시각 언어 모델로 변환하기
DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models
December 17, 2025
저자: Lunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang
cs.AI
초록
최근 멀티모달 연구에서 디퓨전 패러다임은 고유한 디코딩 장점으로 인해 자기회귀 패러다임(AR)에 대한 유망한 대안으로 부상했습니다. 그러나 기본 디퓨전 언어 모델의 성능 한계로 인해 디퓨전 비전 언어 모델(dVLM)의 성능은 여전히 주류 모델들에 비해 크게 뒤처지고 있습니다. 이로 인해 단순하지만 근본적인 질문이 제기됩니다: 기존의 강력한 AR 모델을 기반으로 dVLM을 구축하는 것이 가능할까요? 이에 대해 우리는 어떤 강력한 AR 모델에서든 변환이 가능한 dVLM 패밀리인 DiffusionVL을 제안합니다. 간단한 미세 조정을 통해 AR 사전 학습 모델을 디퓨전 패러다임으로 성공적으로 적응시킵니다. 이 접근 방식은 두 가지 주요 관찰 결과를 도출했습니다: (1) AR 기반 멀티모달 모델에서 디퓨전으로의 패러다임 전환은 매우 효과적입니다. (2) AR 언어 모델을 dVLM으로 직접 변환하는 것도 가능하며, LLaVA 스타일의 시각-지시-튜닝과 경쟁력 있는 성능을 달성합니다. 더 나아가, 우리는 임의 길이 생성과 KV 캐시 재사용을 지원하는 블록 디코딩 설계를 dVLM에 도입하여 추론 속도를 크게 가속화했습니다. 대량의 실험을 수행한 결과, 기존 방법들이 필요로 하는 데이터의 5% 미만으로 학습했음에도 불구하고 DiffusionVL은 MMMU-Pro(비전) 벤치에서 34.4%, MME(인지) 벤치에서 37.5%의 성능 향상이라는 포괄적인 성능 개선과 함께 추론 속도 2배 가속을 동시에 달성했습니다. 모델과 코드는 https://github.com/hustvl/DiffusionVL에서 공개되었습니다.
English
In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.