DreamVLA: Un Modello Visione-Linguaggio-Azione Sognato con Conoscenza Completa del Mondo

Abstract

I recenti progressi nei modelli visione-linguaggio-azione (VLA) hanno mostrato promettenti risultati nell'integrazione della generazione di immagini con la previsione delle azioni, migliorando la generalizzazione e il ragionamento nella manipolazione robotica. Tuttavia, i metodi esistenti si limitano a previsioni basate su immagini, che soffrono di informazioni ridondanti e mancano di una conoscenza del mondo completa e critica, includendo informazioni dinamiche, spaziali e semantiche. Per affrontare queste limitazioni, proponiamo DreamVLA, un nuovo framework VLA che integra una previsione completa della conoscenza del mondo per abilitare la modellazione della dinamica inversa, stabilendo così un ciclo percezione-predizione-azione per i compiti di manipolazione. Nello specifico, DreamVLA introduce una previsione della conoscenza del mondo guidata da regioni dinamiche, integrata con indizi spaziali e semantici, che forniscono rappresentazioni compatte ma complete per la pianificazione delle azioni. Questo design si allinea con il modo in cui gli esseri umani interagiscono con il mondo, formando prima catene di ragionamento multimodali astratte prima di agire. Per mitigare l'interferenza tra le informazioni dinamiche, spaziali e semantiche durante l'addestramento, adottiamo un meccanismo di attenzione strutturato a blocchi che maschera la loro attenzione reciproca, prevenendo la fuoriuscita di informazioni e mantenendo ciascuna rappresentazione pulita e disaccoppiata. Inoltre, per modellare la distribuzione condizionale sulle azioni future, utilizziamo un transformer basato su diffusione che disaccoppia le rappresentazioni delle azioni dalle caratteristiche latenti condivise. Esperimenti estensivi sia in ambienti reali che di simulazione dimostrano che DreamVLA raggiunge un tasso di successo del 76.7% nei compiti robotici reali e una lunghezza media di 4.44 sui benchmark CALVIN ABC-D.

English

Recent advances in vision-language-action (VLA) models have shown promise in integrating image generation with action prediction to improve generalization and reasoning in robot manipulation. However, existing methods are limited to challenging image-based forecasting, which suffers from redundant information and lacks comprehensive and critical world knowledge, including dynamic, spatial and semantic information. To address these limitations, we propose DreamVLA, a novel VLA framework that integrates comprehensive world knowledge forecasting to enable inverse dynamics modeling, thereby establishing a perception-prediction-action loop for manipulation tasks. Specifically, DreamVLA introduces a dynamic-region-guided world knowledge prediction, integrated with the spatial and semantic cues, which provide compact yet comprehensive representations for action planning. This design aligns with how humans interact with the world by first forming abstract multimodal reasoning chains before acting. To mitigate interference among the dynamic, spatial and semantic information during training, we adopt a block-wise structured attention mechanism that masks their mutual attention, preventing information leakage and keeping each representation clean and disentangled. Moreover, to model the conditional distribution over future actions, we employ a diffusion-based transformer that disentangles action representations from shared latent features. Extensive experiments on both real-world and simulation environments demonstrate that DreamVLA achieves 76.7% success rate on real robot tasks and 4.44 average length on the CALVIN ABC-D benchmarks.

DreamVLA: Un Modello Visione-Linguaggio-Azione Sognato con Conoscenza Completa del Mondo

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

Abstract

Support