DreamVLA: Vision-Language-Action модель, созданная с учетом всеобъемлющих знаний о мире
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge
July 6, 2025
Авторы: Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
cs.AI
Аннотация
Последние достижения в моделях "зрение-язык-действие" (VLA) показали перспективность интеграции генерации изображений с предсказанием действий для улучшения обобщения и рассуждений в задачах манипуляции роботов. Однако существующие методы ограничиваются сложным прогнозированием на основе изображений, которое страдает от избыточной информации и не учитывает всесторонние и важные знания о мире, включая динамическую, пространственную и семантическую информацию. Чтобы устранить эти ограничения, мы предлагаем DreamVLA — новую VLA-модель, которая интегрирует всестороннее прогнозирование знаний о мире для моделирования обратной динамики, тем самым создавая цикл "восприятие-прогнозирование-действие" для задач манипуляции. В частности, DreamVLA вводит прогнозирование знаний о мире, управляемое динамическими областями, интегрированное с пространственными и семантическими подсказками, что обеспечивает компактные, но всесторонние представления для планирования действий. Этот подход соответствует тому, как люди взаимодействуют с миром, сначала формируя абстрактные мультимодальные цепочки рассуждений, прежде чем действовать. Чтобы минимизировать взаимное влияние динамической, пространственной и семантической информации во время обучения, мы используем блочно-структурированный механизм внимания, который маскирует их взаимное внимание, предотвращая утечку информации и сохраняя каждое представление чистым и разделенным. Кроме того, для моделирования условного распределения будущих действий мы применяем трансформер на основе диффузии, который разделяет представления действий от общих скрытых признаков. Эксперименты в реальных и симулированных средах демонстрируют, что DreamVLA достигает 76,7% успешности в задачах реального робота и 4,44 среднего показателя длины на бенчмарках CALVIN ABC-D.
English
Recent advances in vision-language-action (VLA) models have shown promise in
integrating image generation with action prediction to improve generalization
and reasoning in robot manipulation. However, existing methods are limited to
challenging image-based forecasting, which suffers from redundant information
and lacks comprehensive and critical world knowledge, including dynamic,
spatial and semantic information. To address these limitations, we propose
DreamVLA, a novel VLA framework that integrates comprehensive world knowledge
forecasting to enable inverse dynamics modeling, thereby establishing a
perception-prediction-action loop for manipulation tasks. Specifically,
DreamVLA introduces a dynamic-region-guided world knowledge prediction,
integrated with the spatial and semantic cues, which provide compact yet
comprehensive representations for action planning. This design aligns with how
humans interact with the world by first forming abstract multimodal reasoning
chains before acting. To mitigate interference among the dynamic, spatial and
semantic information during training, we adopt a block-wise structured
attention mechanism that masks their mutual attention, preventing information
leakage and keeping each representation clean and disentangled. Moreover, to
model the conditional distribution over future actions, we employ a
diffusion-based transformer that disentangles action representations from
shared latent features. Extensive experiments on both real-world and simulation
environments demonstrate that DreamVLA achieves 76.7% success rate on real
robot tasks and 4.44 average length on the CALVIN ABC-D benchmarks.