Dream-VL & Dream-VLA : Modèles ouverts Vision-Langage et Vision-Langage-Action avec un fondement de modèle de langage à diffusion
Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone
December 27, 2025
papers.authors: Jiacheng Ye, Shansan Gong, Jiahui Gao, Junming Fan, Shuang Wu, Wei Bi, Haoli Bai, Lifeng Shang, Lingpeng Kong
cs.AI
papers.abstract
Bien que les grands modèles vision-langage (VLM) autorégressifs aient connu un succès remarquable, leur génération séquentielle limite souvent leur efficacité dans la planification visuelle complexe et le contrôle robotique dynamique. Dans ce travail, nous étudions le potentiel de construction de modèles vision-langage sur des grands modèles de langage basés sur la diffusion (dLLM) pour surmonter ces limitations. Nous présentons Dream-VL, un VLM ouvert basé sur la diffusion (dVLM) qui atteint des performances de pointe parmi les dVLM précédents. Dream-VL est comparable aux meilleurs VLM basés sur l'autorégression entraînés sur des données ouvertes selon divers benchmarks, mais montre un potentiel supérieur lorsqu'il est appliqué à des tâches de planification visuelle. Sur la base de Dream-VL, nous présentons Dream-VLA, un modèle vision-langage-action (dVLA) basé sur les dLLM, développé grâce à un pré-entraînement continu sur des ensembles de données robotiques ouverts. Nous démontrons que la nature intrinsèquement bidirectionnelle de cette architecture de diffusion constitue une fondation supérieure pour les tâches VLA, naturellement adaptée au découpage des actions et à la génération parallèle, conduisant à une convergence significativement plus rapide lors du fine-tuning en aval. Dream-VL atteint des performances de premier plan avec un taux de réussite moyen de 97,2% sur LIBERO, 71,4% de moyenne globale sur SimplerEnv-Bridge et 60,5% de moyenne globale sur SimplerEnv-Fractal, surpassant des modèles leaders tels que π_0 et GR00T-N1. Nous validons également que les dVLM surpassent les modèles de référence autorégressifs sur les tâches en aval, quel que soit l'objectif d'entraînement. Nous publions à la fois Dream-VL et Dream-VLA pour faciliter les recherches futures au sein de la communauté.
English
While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as π_0 and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.