ChatPaper.aiChatPaper

Dream-VL & Dream-VLA: Open Vision-Language en Vision-Language-Action Modellen met een Diffusion Language Model Backbone

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

December 27, 2025
Auteurs: Jiacheng Ye, Shansan Gong, Jiahui Gao, Junming Fan, Shuang Wu, Wei Bi, Haoli Bai, Lifeng Shang, Lingpeng Kong
cs.AI

Samenvatting

Hoewel autoregressieve grote visueel-taalmodelen (VLM's) opmerkelijke successen hebben geboekt, beperkt hun sequentiële generatie vaak hun effectiviteit bij complexe visuele planning en dynamische robotbesturing. In dit werk onderzoeken we de potentie van het bouwen van visueel-taalmodelen op op diffusie gebaseerde grote taalmodelen (dLLM's) om deze beperkingen te overwinnen. We introduceren Dream-VL, een open, op diffusie gebaseerd VLM (dVLM) dat state-of-the-art prestaties behaalt ten opzichte van eerdere dVLM's. Dream-VL is vergelijkbaar met top-AR-gebaseerde VLM's die op open data zijn getraind op diverse benchmarks, maar toont superieure potentie wanneer toegepast op visuele plannings taken. Voortbouwend op Dream-VL introduceren we Dream-VLA, een op dLLM gebaseerd Vision-Language-Action model (dVLA) dat is ontwikkeld door continue voorafgaande training op open robotdatasets. We tonen aan dat de inherent bidirectionele aard van deze diffusie-architectuur een superieure basis vormt voor VLA-taken, van nature geschikt voor actie-chunking en parallelle generatie, wat leidt tot aanzienlijk snellere convergentie in downstream fine-tuning. Dream-VL behaalt top prestaties met een gemiddeld slagingspercentage van 97.2% op LIBERO, 71.4% algemeen gemiddelde op SimplerEnv-Bridge en 60.5% algemeen gemiddelde op SimplerEnv-Fractal, waarmee het toonaangevende modellen zoals π_0 en GR00T-N1 overtreft. We valideren ook dat dVLM's de AR-baselines overtreffen op downstream taken bij verschillende trainingsdoelstellingen. We geven zowel Dream-VL als Dream-VLA vrij om verder onderzoek in de gemeenschap te faciliteren.
English
While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as π_0 and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.
PDF271December 31, 2025