DreamVLA: Ein Vision-Sprache-Handlung-Modell, geträumt mit umfassendem Weltwissen

papers.abstract

Jüngste Fortschritte in Vision-Language-Action (VLA)-Modellen haben vielversprechende Ansätze gezeigt, um Bildgenerierung mit Aktionsvorhersage zu integrieren und dadurch die Generalisierung und das logische Denken bei der Roboter-Manipulation zu verbessern. Bisherige Methoden beschränken sich jedoch auf herausfordernde bildbasierte Vorhersagen, die unter redundanter Information leiden und umfassendes sowie kritisches Weltwissen, einschließlich dynamischer, räumlicher und semantischer Informationen, vermissen. Um diese Einschränkungen zu überwinden, schlagen wir DreamVLA vor, ein neuartiges VLA-Framework, das umfassende Weltwissensvorhersagen integriert, um die inverse Dynamikmodellierung zu ermöglichen und dadurch eine Wahrnehmungs-Vorhersage-Aktions-Schleife für Manipulationsaufgaben zu etablieren. Konkret führt DreamVLA eine dynamik-regionen-gesteuerte Weltwissensvorhersage ein, die mit räumlichen und semantischen Hinweisen kombiniert wird und dadurch kompakte, aber umfassende Repräsentationen für die Aktionsplanung liefert. Dieser Ansatz spiegelt wider, wie Menschen mit der Welt interagieren, indem sie zunächst abstrakte multimodale Denkketten bilden, bevor sie handeln. Um Interferenzen zwischen dynamischen, räumlichen und semantischen Informationen während des Trainings zu minimieren, verwenden wir einen blockstrukturierten Aufmerksamkeitsmechanismus, der ihre gegenseitige Aufmerksamkeit maskiert, um Informationslecks zu verhindern und jede Repräsentation klar und entflochten zu halten. Darüber hinaus setzen wir einen diffusionsbasierten Transformer ein, um die bedingte Verteilung über zukünftige Aktionen zu modellieren und Aktionsrepräsentationen von gemeinsamen latenten Merkmalen zu entflechten. Umfangreiche Experimente in realen und simulierten Umgebungen zeigen, dass DreamVLA eine Erfolgsrate von 76,7 % bei realen Roboteraufgaben und eine durchschnittliche Länge von 4,44 bei den CALVIN ABC-D-Benchmarks erreicht.

English

Recent advances in vision-language-action (VLA) models have shown promise in integrating image generation with action prediction to improve generalization and reasoning in robot manipulation. However, existing methods are limited to challenging image-based forecasting, which suffers from redundant information and lacks comprehensive and critical world knowledge, including dynamic, spatial and semantic information. To address these limitations, we propose DreamVLA, a novel VLA framework that integrates comprehensive world knowledge forecasting to enable inverse dynamics modeling, thereby establishing a perception-prediction-action loop for manipulation tasks. Specifically, DreamVLA introduces a dynamic-region-guided world knowledge prediction, integrated with the spatial and semantic cues, which provide compact yet comprehensive representations for action planning. This design aligns with how humans interact with the world by first forming abstract multimodal reasoning chains before acting. To mitigate interference among the dynamic, spatial and semantic information during training, we adopt a block-wise structured attention mechanism that masks their mutual attention, preventing information leakage and keeping each representation clean and disentangled. Moreover, to model the conditional distribution over future actions, we employ a diffusion-based transformer that disentangles action representations from shared latent features. Extensive experiments on both real-world and simulation environments demonstrate that DreamVLA achieves 76.7% success rate on real robot tasks and 4.44 average length on the CALVIN ABC-D benchmarks.

DreamVLA: Ein Vision-Sprache-Handlung-Modell, geträumt mit umfassendem Weltwissen

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

papers.abstract

Support