DreamVLA : Un modèle vision-langage-action conçu avec une connaissance approfondie du monde
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge
July 6, 2025
Auteurs: Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
cs.AI
Résumé
Les récentes avancées dans les modèles vision-langage-action (VLA) ont montré des résultats prometteurs dans l'intégration de la génération d'images avec la prédiction d'actions pour améliorer la généralisation et le raisonnement dans la manipulation robotique. Cependant, les méthodes existantes se limitent à des prévisions basées sur des images, qui souffrent d'informations redondantes et manquent de connaissances globales et critiques sur le monde, incluant des informations dynamiques, spatiales et sémantiques. Pour pallier ces limitations, nous proposons DreamVLA, un nouveau cadre VLA qui intègre une prévision complète des connaissances du monde pour permettre une modélisation de la dynamique inverse, établissant ainsi une boucle perception-prédiction-action pour les tâches de manipulation. Plus précisément, DreamVLA introduit une prédiction des connaissances du monde guidée par des régions dynamiques, intégrée avec des indices spatiaux et sémantiques, fournissant des représentations compactes mais complètes pour la planification des actions. Cette conception s'aligne sur la manière dont les humains interagissent avec le monde en formant d'abord des chaînes de raisonnement multimodales abstraites avant d'agir. Pour atténuer les interférences entre les informations dynamiques, spatiales et sémantiques pendant l'entraînement, nous adoptons un mécanisme d'attention structurée par blocs qui masque leur attention mutuelle, empêchant la fuite d'informations et maintenant chaque représentation propre et désenchevêtrée. De plus, pour modéliser la distribution conditionnelle sur les actions futures, nous utilisons un transformeur basé sur la diffusion qui désenchevêtre les représentations d'actions des caractéristiques latentes partagées. Des expériences approfondies sur des environnements réels et de simulation démontrent que DreamVLA atteint un taux de réussite de 76,7 % sur des tâches robotiques réelles et une longueur moyenne de 4,44 sur les benchmarks CALVIN ABC-D.
English
Recent advances in vision-language-action (VLA) models have shown promise in
integrating image generation with action prediction to improve generalization
and reasoning in robot manipulation. However, existing methods are limited to
challenging image-based forecasting, which suffers from redundant information
and lacks comprehensive and critical world knowledge, including dynamic,
spatial and semantic information. To address these limitations, we propose
DreamVLA, a novel VLA framework that integrates comprehensive world knowledge
forecasting to enable inverse dynamics modeling, thereby establishing a
perception-prediction-action loop for manipulation tasks. Specifically,
DreamVLA introduces a dynamic-region-guided world knowledge prediction,
integrated with the spatial and semantic cues, which provide compact yet
comprehensive representations for action planning. This design aligns with how
humans interact with the world by first forming abstract multimodal reasoning
chains before acting. To mitigate interference among the dynamic, spatial and
semantic information during training, we adopt a block-wise structured
attention mechanism that masks their mutual attention, preventing information
leakage and keeping each representation clean and disentangled. Moreover, to
model the conditional distribution over future actions, we employ a
diffusion-based transformer that disentangles action representations from
shared latent features. Extensive experiments on both real-world and simulation
environments demonstrate that DreamVLA achieves 76.7% success rate on real
robot tasks and 4.44 average length on the CALVIN ABC-D benchmarks.