ChatPaper.aiChatPaper

DiffusionVL: Umwandlung beliebiger autoregressiver Modelle in Diffusions-Vision-Sprach-Modelle

DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

December 17, 2025
papers.authors: Lunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang
cs.AI

papers.abstract

In der aktuellen multimodalen Forschung hat sich das Diffusionsparadigma aufgrund seiner einzigartigen Dekodierungsvorteile als vielversprechende Alternative zum autoregressiven Paradigma (AR) etabliert. Aufgrund der Fähigkeitsbeschränkungen des zugrundeliegenden Diffusions-Sprachmodells hinkt die Leistung des Diffusions-Vision-Sprachmodells (dVLM) jedoch immer noch deutlich hinter der von Mainstream-Modellen her. Dies wirft eine einfache, aber grundlegende Frage auf: Ist es möglich, dVLMs auf der Basis bestehender leistungsstarker AR-Modelle zu konstruieren? Als Antwort darauf schlagen wir DiffusionVL vor, eine dVLM-Familie, die aus beliebigen leistungsfähigen AR-Modellen übertragen werden kann. Durch einfaches Fine-Tuning passen wir AR-vortrainierte Modelle erfolgreich an das Diffusionsparadigma an. Dieser Ansatz führt zu zwei wichtigen Erkenntnissen: (1) Der Paradigmenwechsel von AR-basierten multimodalen Modellen zur Diffusion ist bemerkenswert effektiv. (2) Die direkte Konvertierung eines AR-Sprachmodells in ein dVLM ist ebenfalls machbar und erreicht eine Leistung, die mit LLaVA-style Visual-Instruction-Tuning vergleichbar ist. Darüber hinaus führen wir ein Block-Decoding-Design in dVLMs ein, das die Generierung beliebiger Längen und die Wiederverwendung des KV-Caches unterstützt und damit eine erhebliche Beschleunigung der Inferenz erreicht. Wir führen eine große Anzahl von Experimenten durch. Obwohl mit weniger als 5 % der von früheren Methoden benötigten Daten trainiert, erzielt DiffusionVL eine umfassende Leistungssteigerung – ein Zuwachs von 34,4 % auf der MMMU-Pro (Vision)-Benchmark und 37,5 % auf der MME (Cog.)-Benchmark – bei gleichzeitiger Verdopplung der Inferenzgeschwindigkeit. Das Modell und der Code sind unter https://github.com/hustvl/DiffusionVL veröffentlicht.
English
In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.
PDF132December 19, 2025