DreamVLA: Un modelo visión-lenguaje-acción concebido con conocimiento integral del mundo
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge
July 6, 2025
Autores: Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
cs.AI
Resumen
Los recientes avances en los modelos visión-lenguaje-acción (VLA, por sus siglas en inglés) han mostrado un gran potencial al integrar la generación de imágenes con la predicción de acciones para mejorar la generalización y el razonamiento en la manipulación robótica. Sin embargo, los métodos existentes se limitan a la predicción basada en imágenes, la cual presenta información redundante y carece de un conocimiento del mundo integral y crítico, incluyendo información dinámica, espacial y semántica. Para abordar estas limitaciones, proponemos DreamVLA, un novedoso marco VLA que integra la predicción de conocimiento del mundo integral para permitir el modelado de dinámica inversa, estableciendo así un bucle percepción-predicción-acción para tareas de manipulación. Específicamente, DreamVLA introduce una predicción de conocimiento del mundo guiada por regiones dinámicas, integrada con pistas espaciales y semánticas, que proporcionan representaciones compactas pero integrales para la planificación de acciones. Este diseño se alinea con la forma en que los humanos interactúan con el mundo, formando primero cadenas de razonamiento multimodal abstractas antes de actuar. Para mitigar la interferencia entre la información dinámica, espacial y semántica durante el entrenamiento, adoptamos un mecanismo de atención estructurada por bloques que enmascara su atención mutua, evitando la fuga de información y manteniendo cada representación limpia y desenredada. Además, para modelar la distribución condicional sobre acciones futuras, empleamos un transformador basado en difusión que desenreda las representaciones de acciones de las características latentes compartidas. Experimentos extensos en entornos tanto del mundo real como de simulación demuestran que DreamVLA alcanza una tasa de éxito del 76.7% en tareas de robots reales y una longitud promedio de 4.44 en los benchmarks CALVIN ABC-D.
English
Recent advances in vision-language-action (VLA) models have shown promise in
integrating image generation with action prediction to improve generalization
and reasoning in robot manipulation. However, existing methods are limited to
challenging image-based forecasting, which suffers from redundant information
and lacks comprehensive and critical world knowledge, including dynamic,
spatial and semantic information. To address these limitations, we propose
DreamVLA, a novel VLA framework that integrates comprehensive world knowledge
forecasting to enable inverse dynamics modeling, thereby establishing a
perception-prediction-action loop for manipulation tasks. Specifically,
DreamVLA introduces a dynamic-region-guided world knowledge prediction,
integrated with the spatial and semantic cues, which provide compact yet
comprehensive representations for action planning. This design aligns with how
humans interact with the world by first forming abstract multimodal reasoning
chains before acting. To mitigate interference among the dynamic, spatial and
semantic information during training, we adopt a block-wise structured
attention mechanism that masks their mutual attention, preventing information
leakage and keeping each representation clean and disentangled. Moreover, to
model the conditional distribution over future actions, we employ a
diffusion-based transformer that disentangles action representations from
shared latent features. Extensive experiments on both real-world and simulation
environments demonstrate that DreamVLA achieves 76.7% success rate on real
robot tasks and 4.44 average length on the CALVIN ABC-D benchmarks.