DreamVLA: Un modelo visión-lenguaje-acción concebido con conocimiento integral del mundo

Resumen

Los recientes avances en los modelos visión-lenguaje-acción (VLA, por sus siglas en inglés) han mostrado un gran potencial al integrar la generación de imágenes con la predicción de acciones para mejorar la generalización y el razonamiento en la manipulación robótica. Sin embargo, los métodos existentes se limitan a la predicción basada en imágenes, la cual presenta información redundante y carece de un conocimiento del mundo integral y crítico, incluyendo información dinámica, espacial y semántica. Para abordar estas limitaciones, proponemos DreamVLA, un novedoso marco VLA que integra la predicción de conocimiento del mundo integral para permitir el modelado de dinámica inversa, estableciendo así un bucle percepción-predicción-acción para tareas de manipulación. Específicamente, DreamVLA introduce una predicción de conocimiento del mundo guiada por regiones dinámicas, integrada con pistas espaciales y semánticas, que proporcionan representaciones compactas pero integrales para la planificación de acciones. Este diseño se alinea con la forma en que los humanos interactúan con el mundo, formando primero cadenas de razonamiento multimodal abstractas antes de actuar. Para mitigar la interferencia entre la información dinámica, espacial y semántica durante el entrenamiento, adoptamos un mecanismo de atención estructurada por bloques que enmascara su atención mutua, evitando la fuga de información y manteniendo cada representación limpia y desenredada. Además, para modelar la distribución condicional sobre acciones futuras, empleamos un transformador basado en difusión que desenreda las representaciones de acciones de las características latentes compartidas. Experimentos extensos en entornos tanto del mundo real como de simulación demuestran que DreamVLA alcanza una tasa de éxito del 76.7% en tareas de robots reales y una longitud promedio de 4.44 en los benchmarks CALVIN ABC-D.

English

Recent advances in vision-language-action (VLA) models have shown promise in integrating image generation with action prediction to improve generalization and reasoning in robot manipulation. However, existing methods are limited to challenging image-based forecasting, which suffers from redundant information and lacks comprehensive and critical world knowledge, including dynamic, spatial and semantic information. To address these limitations, we propose DreamVLA, a novel VLA framework that integrates comprehensive world knowledge forecasting to enable inverse dynamics modeling, thereby establishing a perception-prediction-action loop for manipulation tasks. Specifically, DreamVLA introduces a dynamic-region-guided world knowledge prediction, integrated with the spatial and semantic cues, which provide compact yet comprehensive representations for action planning. This design aligns with how humans interact with the world by first forming abstract multimodal reasoning chains before acting. To mitigate interference among the dynamic, spatial and semantic information during training, we adopt a block-wise structured attention mechanism that masks their mutual attention, preventing information leakage and keeping each representation clean and disentangled. Moreover, to model the conditional distribution over future actions, we employ a diffusion-based transformer that disentangles action representations from shared latent features. Extensive experiments on both real-world and simulation environments demonstrate that DreamVLA achieves 76.7% success rate on real robot tasks and 4.44 average length on the CALVIN ABC-D benchmarks.

DreamVLA: Un modelo visión-lenguaje-acción concebido con conocimiento integral del mundo

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

Resumen

Support