Dream-VL & Dream-VLA: Modelli Aperti Visione-Linguaggio e Visione-Linguaggio-Azione con Backbone basato su Modelli Linguistici a Diffusione

Abstract

Sebbene i modelli autoregressivi di grandi dimensioni visione-linguaggio (VLM) abbiano ottenuto risultati notevoli, la loro generazione sequenziale spesso ne limita l'efficacia nella pianificazione visiva complessa e nel controllo robotico dinamico. In questo lavoro, indaghiamo il potenziale della costruzione di modelli visione-linguaggio su modelli linguistici di grandi dimensioni basati su diffusione (dLLM) per superare questi limiti. Introduciamo Dream-VL, un VLM aperto basato su diffusione (dVLM) che raggiunge prestazioni allo stato dell'arte tra i precedenti dVLM. Dream-VL è paragonabile ai migliori VLM basati su AR addestrati su dati aperti in vari benchmark, ma mostra un potenziale superiore quando applicato a compiti di pianificazione visiva. Basandoci su Dream-VL, introduciamo Dream-VLA, un modello visione-linguaggio-azione basato su dLLM (dVLA) sviluppato mediante pre-addestramento continuo su dataset robotici aperti. Dimostriamo che la natura nativamente bidirezionale di questo backbone a diffusione funge da base superiore per i compiti VLA, intrinsecamente adatta al chunking delle azioni e alla generazione parallela, portando a una convergenza significativamente più rapida nella messa a punto a valle. Dream-VLA raggiunge prestazioni di primo livello con una percentuale media di successo del 97.2% su LIBERO, una media complessiva del 71.4% su SimplerEnv-Bridge e del 60.5% su SimplerEnv-Fractal, superando modelli leader come π_0 e GR00T-N1. Validiamo inoltre che i dVLM superano i baseline AR sui compiti a valle attraverso diversi obiettivi di addestramento. Rilasciamo sia Dream-VL che Dream-VLA per facilitare ulteriori ricerche nella comunità.

English

While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as π_0 and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.

Dream-VL & Dream-VLA: Modelli Aperti Visione-Linguaggio e Visione-Linguaggio-Azione con Backbone basato su Modelli Linguistici a Diffusione

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

Abstract

Support