ChatPaper.aiChatPaper

DreamVLA: Een Vision-Language-Action Model Ontwikkeld met Uitgebreide Wereldkennis

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

July 6, 2025
Auteurs: Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
cs.AI

Samenvatting

Recente ontwikkelingen in vision-language-action (VLA) modellen hebben veelbelovende resultaten laten zien bij het integreren van beeldgeneratie met actievoorspelling om generalisatie en redenering in robotmanipulatie te verbeteren. Bestaande methoden zijn echter beperkt tot uitdagende beeldgebaseerde voorspelling, die lijdt onder overbodige informatie en een gebrek aan uitgebreide en kritische wereldkennis, inclusief dynamische, ruimtelijke en semantische informatie. Om deze beperkingen aan te pakken, stellen we DreamVLA voor, een nieuw VLA-raamwerk dat uitgebreide wereldkennisvoorspelling integreert om inverse dynamische modellering mogelijk te maken, waardoor een perceptie-voorspelling-actie-lus voor manipulatietaken wordt gecreëerd. Specifiek introduceert DreamVLA een dynamisch-regio-gestuurde wereldkennisvoorspelling, geïntegreerd met ruimtelijke en semantische aanwijzingen, die compacte maar uitgebreide representaties bieden voor actieplanning. Dit ontwerp sluit aan bij hoe mensen met de wereld interacteren door eerst abstracte multimodale redeneerketens te vormen voordat ze handelen. Om interferentie tussen de dynamische, ruimtelijke en semantische informatie tijdens de training te verminderen, gebruiken we een bloksgewijze gestructureerde aandachtmechanisme dat hun onderlinge aandacht maskeert, waardoor informatielek wordt voorkomen en elke representatie schoon en ontward blijft. Bovendien gebruiken we, om de conditionele verdeling over toekomstige acties te modelleren, een op diffusie gebaseerde transformer die actierepresentaties ontwart van gedeelde latente kenmerken. Uitgebreide experimenten in zowel real-world als simulatieomgevingen tonen aan dat DreamVLA een slagingspercentage van 76,7% behaalt op real-world robot taken en een gemiddelde lengte van 4,44 op de CALVIN ABC-D benchmarks.
English
Recent advances in vision-language-action (VLA) models have shown promise in integrating image generation with action prediction to improve generalization and reasoning in robot manipulation. However, existing methods are limited to challenging image-based forecasting, which suffers from redundant information and lacks comprehensive and critical world knowledge, including dynamic, spatial and semantic information. To address these limitations, we propose DreamVLA, a novel VLA framework that integrates comprehensive world knowledge forecasting to enable inverse dynamics modeling, thereby establishing a perception-prediction-action loop for manipulation tasks. Specifically, DreamVLA introduces a dynamic-region-guided world knowledge prediction, integrated with the spatial and semantic cues, which provide compact yet comprehensive representations for action planning. This design aligns with how humans interact with the world by first forming abstract multimodal reasoning chains before acting. To mitigate interference among the dynamic, spatial and semantic information during training, we adopt a block-wise structured attention mechanism that masks their mutual attention, preventing information leakage and keeping each representation clean and disentangled. Moreover, to model the conditional distribution over future actions, we employ a diffusion-based transformer that disentangles action representations from shared latent features. Extensive experiments on both real-world and simulation environments demonstrate that DreamVLA achieves 76.7% success rate on real robot tasks and 4.44 average length on the CALVIN ABC-D benchmarks.
PDF442July 8, 2025