ChatPaper.aiChatPaper

Os Modelos de Ação Mundial Generalizam Melhor que os VLAs? Um Estudo de Robustez

Do World Action Models Generalize Better than VLAs? A Robustness Study

April 1, 2026
Autores: Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang
cs.AI

Resumo

O planeamento de ações robóticas no mundo real é desafiador, pois exige não apenas a compreensão do estado atual do ambiente, mas também a previsão da sua evolução em resposta às ações. Os modelos visão-linguagem-ação (VLA), que adaptam modelos de grande escala de visão e linguagem para geração de ações robóticas utilizando especialistas em ação, alcançaram sucesso notável em diversas tarefas robóticas. No entanto, o seu desempenho permanece limitado pelo âmbito dos seus dados de treino, exibindo generalização limitada para cenários não vistos e vulnerabilidade a diversas perturbações contextuais. Mais recentemente, os modelos do mundo foram revisitados como alternativa aos VLAs. Estes modelos, designados por modelos de ação do mundo (WAMs), são construídos sobre modelos do mundo treinados em grandes corpora de dados de vídeo para prever estados futuros. Com pequenas adaptações, a sua representação latente pode ser descodificada em ações robóticas. Sugere-se que a sua capacidade explícita de previsão dinâmica, combinada com prioridades espaço-temporais adquiridas a partir do pré-treino com vídeos em escala web, permite aos WAMs generalizar mais eficazmente do que os VLAs. Neste artigo, realizamos um estudo comparativo de políticas VLA proeminentes do estado da arte e de WAMs recentemente lançados. Avaliamos o seu desempenho nos benchmarks LIBERO-Plus e RoboTwin 2.0-Plus sob várias perturbações visuais e linguísticas. Os nossos resultados mostram que os WAMs alcançam uma robustez forte, com o LingBot-VA a atingir 74,2% de taxa de sucesso no RoboTwin 2.0-Plus e o Cosmos-Policy a alcançar 82,2% no LIBERO-Plus. Embora VLAs como o π_{0,5} possam alcançar robustez comparável em certas tarefas, normalmente exigem treino extensivo com conjuntos de dados robóticos diversificados e objetivos de aprendizagem variados. Abordagens híbridas que incorporam parcialmente aprendizagem dinâmica baseada em vídeo exibem robustez intermédia, destacando a importância de como as prioridades de vídeo são integradas.
English
Robot action planning in the real world is challenging as it requires not only understanding the current state of the environment but also predicting how it will evolve in response to actions. Vision-language-action (VLA), which repurpose large-scale vision-language models for robot action generation using action experts, have achieved notable success across a variety of robotic tasks. Nevertheless, their performance remains constrained by the scope of their training data, exhibiting limited generalization to unseen scenarios and vulnerability to diverse contextual perturbations. More recently, world models have been revisited as an alternative to VLAs. These models, referred to as world action models (WAMs), are built upon world models that are trained on large corpora of video data to predict future states. With minor adaptations, their latent representation can be decoded into robot actions. It has been suggested that their explicit dynamic prediction capacity, combined with spatiotemporal priors acquired from web-scale video pretraining, enables WAMs to generalize more effectively than VLAs. In this paper, we conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations. Our results show that WAMs achieve strong robustness, with LingBot-VA reaching 74.2% success rate on RoboTwin 2.0-Plus and Cosmos-Policy achieving 82.2% on LIBERO-Plus. While VLAs such as π_{0.5} can achieve comparable robustness on certain tasks, they typically require extensive training with diverse robotic datasets and varied learning objectives. Hybrid approaches that partially incorporate video-based dynamic learning exhibit intermediate robustness, highlighting the importance of how video priors are integrated.
PDF11April 7, 2026