ChatPaper.aiChatPaper

DreamVLA: Um Modelo Visão-Linguagem-Ação Sonhado com Conhecimento Mundial Abrangente

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

July 6, 2025
Autores: Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
cs.AI

Resumo

Avanços recentes em modelos visão-linguagem-ação (VLA) têm mostrado potencial na integração de geração de imagens com previsão de ações para melhorar a generalização e o raciocínio na manipulação robótica. No entanto, os métodos existentes estão limitados à previsão baseada em imagens, que sofre com informações redundantes e carece de conhecimento abrangente e crítico sobre o mundo, incluindo informações dinâmicas, espaciais e semânticas. Para abordar essas limitações, propomos o DreamVLA, uma nova estrutura VLA que integra previsão de conhecimento abrangente sobre o mundo para permitir a modelagem de dinâmica inversa, estabelecendo assim um loop percepção-previsão-ação para tarefas de manipulação. Especificamente, o DreamVLA introduz uma previsão de conhecimento do mundo guiada por regiões dinâmicas, integrada com pistas espaciais e semânticas, que fornecem representações compactas, porém abrangentes, para o planejamento de ações. Esse design está alinhado com a forma como os humanos interagem com o mundo, formando primeiro cadeias de raciocínio multimodal abstratas antes de agir. Para mitigar a interferência entre as informações dinâmicas, espaciais e semânticas durante o treinamento, adotamos um mecanismo de atenção estruturada em blocos que mascara a atenção mútua entre elas, evitando vazamento de informações e mantendo cada representação limpa e desembaraçada. Além disso, para modelar a distribuição condicional sobre ações futuras, empregamos um transformer baseado em difusão que desembaraça as representações de ações de características latentes compartilhadas. Experimentos extensivos em ambientes do mundo real e de simulação demonstram que o DreamVLA alcança uma taxa de sucesso de 76,7% em tarefas de robôs reais e uma média de 4,44 no comprimento das sequências nos benchmarks CALVIN ABC-D.
English
Recent advances in vision-language-action (VLA) models have shown promise in integrating image generation with action prediction to improve generalization and reasoning in robot manipulation. However, existing methods are limited to challenging image-based forecasting, which suffers from redundant information and lacks comprehensive and critical world knowledge, including dynamic, spatial and semantic information. To address these limitations, we propose DreamVLA, a novel VLA framework that integrates comprehensive world knowledge forecasting to enable inverse dynamics modeling, thereby establishing a perception-prediction-action loop for manipulation tasks. Specifically, DreamVLA introduces a dynamic-region-guided world knowledge prediction, integrated with the spatial and semantic cues, which provide compact yet comprehensive representations for action planning. This design aligns with how humans interact with the world by first forming abstract multimodal reasoning chains before acting. To mitigate interference among the dynamic, spatial and semantic information during training, we adopt a block-wise structured attention mechanism that masks their mutual attention, preventing information leakage and keeping each representation clean and disentangled. Moreover, to model the conditional distribution over future actions, we employ a diffusion-based transformer that disentangles action representations from shared latent features. Extensive experiments on both real-world and simulation environments demonstrate that DreamVLA achieves 76.7% success rate on real robot tasks and 4.44 average length on the CALVIN ABC-D benchmarks.
PDF402July 8, 2025