Dream-VL & Dream-VLA: Offene Vision-Language- und Vision-Language-Action-Modelle mit Diffusion Language Model Backbone
Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone
December 27, 2025
papers.authors: Jiacheng Ye, Shansan Gong, Jiahui Gao, Junming Fan, Shuang Wu, Wei Bi, Haoli Bai, Lifeng Shang, Lingpeng Kong
cs.AI
papers.abstract
Während autoregressive große visuell-sprachliche Modelle (VLMs) bemerkenswerte Erfolge erzielt haben, schränkt ihre sequentielle Generierung oft ihre Wirksamkeit bei komplexer visueller Planung und dynamischer Robotersteuerung ein. In dieser Arbeit untersuchen wir das Potenzial, visuell-sprachliche Modelle auf diffusionsbasierten großen Sprachmodellen (dLLMs) aufzubauen, um diese Einschränkungen zu überwinden. Wir stellen Dream-VL vor, ein offenes, diffusionsbasiertes VLM (dVLM), das state-of-the-art Leistung unter bisherigen dVLMs erreicht. Dream-VL ist mit erstklassigen AR-basierten VLMs, die mit offenen Daten trainiert wurden, auf verschiedenen Benchmarks vergleichbar, zeigt aber überlegenes Potenzial bei der Anwendung auf visuelle Planungsaufgaben. Aufbauend auf Dream-VL führen wir Dream-VLA ein, ein auf dLLM basierendes Vision-Language-Action-Modell (dVLA), das durch kontinuierliches Vor-Training auf offenen Robotik-Datensätzen entwickelt wurde. Wir zeigen, dass die native bidirektionale Natur dieses Diffusions-Backbones eine überlegene Grundlage für VLA-Aufgaben darstellt, die inhärent für Action-Chunking und parallele Generierung geeignet ist, was zu deutlich schnellerer Konvergenz beim Downstream-Fine-Tuning führt. Dream-VL erreicht eine erstklassige Leistung von 97,2 % durchschnittlicher Erfolgsrate auf LIBERO, 71,4 % Gesamtdurchschnitt auf SimplerEnv-Bridge und 60,5 % Gesamtdurchschnitt auf SimplerEnv-Fractal und übertrifft damit führende Modelle wie π_0 und GR00T-N1. Wir validieren ebenfalls, dass dVLMs AR-Baselines bei Downstream-Aufgaben über verschiedene Trainingsziele hinweg übertreffen. Wir veröffentlichen sowohl Dream-VL als auch Dream-VLA, um weitere Forschung in der Gemeinschaft zu ermöglichen.
English
While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as π_0 and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.