ChatPaper.aiChatPaper

Les modèles d'action mondiale généralisent-ils mieux que les VLA ? Une étude de robustesse

Do World Action Models Generalize Better than VLAs? A Robustness Study

April 1, 2026
Auteurs: Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang
cs.AI

Résumé

La planification d'actions robotiques dans le monde réel est un défi car elle nécessite non seulement de comprendre l'état actuel de l'environnement, mais aussi de prédire son évolution en réponse aux actions. Les modèles vision-langage-action (VLA), qui réutilisent des modèles de vision et de langage à grande échelle pour la génération d'actions robotiques via des experts d'action, ont obtenu des succès notables dans diverses tâches robotiques. Néanmoins, leurs performances restent limitées par l'étendue de leurs données d'entraînement, montrant une généralisation restreinte à des scénarios non vus et une vulnérabilité à diverses perturbations contextuelles. Plus récemment, les modèles du monde ont été réexaminés comme alternative aux VLA. Ces modèles, appelés modèles d'action par le monde (WAM), s'appuient sur des modèles du monde entraînés sur de vastes corpus de données vidéo pour prédire les états futurs. Avec des adaptations mineures, leur représentation latente peut être décodée en actions robotiques. Il a été suggéré que leur capacité explicite de prédiction dynamique, combinée à des prérequis spatio-temporels acquis par un pré-entraînement sur des vidéos à l'échelle du web, permet aux WAM de généraliser plus efficacement que les VLA. Dans cet article, nous menons une étude comparative des politiques VLA de pointe et des WAM récemment publiés. Nous évaluons leurs performances sur les benchmarks LIBERO-Plus et RoboTwin 2.0-Plus sous diverses perturbations visuelles et linguistiques. Nos résultats montrent que les WAM atteignent une robustesse élevée, avec LingBot-VA atteignant 74,2% de taux de succès sur RoboTwin 2.0-Plus et Cosmos-Policy obtenant 82,2% sur LIBERO-Plus. Bien que des VLA tels que π_{0,5} puissent atteindre une robustesse comparable sur certaines tâches, ils nécessitent généralement un entraînement extensif avec des ensembles de données robotiques diversifiés et des objectifs d'apprentissage variés. Les approches hybrides intégrant partiellement un apprentissage dynamique basé sur la vidéo présentent une robustesse intermédiaire, soulignant l'importance de la manière dont les prérequis vidéo sont intégrés.
English
Robot action planning in the real world is challenging as it requires not only understanding the current state of the environment but also predicting how it will evolve in response to actions. Vision-language-action (VLA), which repurpose large-scale vision-language models for robot action generation using action experts, have achieved notable success across a variety of robotic tasks. Nevertheless, their performance remains constrained by the scope of their training data, exhibiting limited generalization to unseen scenarios and vulnerability to diverse contextual perturbations. More recently, world models have been revisited as an alternative to VLAs. These models, referred to as world action models (WAMs), are built upon world models that are trained on large corpora of video data to predict future states. With minor adaptations, their latent representation can be decoded into robot actions. It has been suggested that their explicit dynamic prediction capacity, combined with spatiotemporal priors acquired from web-scale video pretraining, enables WAMs to generalize more effectively than VLAs. In this paper, we conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations. Our results show that WAMs achieve strong robustness, with LingBot-VA reaching 74.2% success rate on RoboTwin 2.0-Plus and Cosmos-Policy achieving 82.2% on LIBERO-Plus. While VLAs such as π_{0.5} can achieve comparable robustness on certain tasks, they typically require extensive training with diverse robotic datasets and varied learning objectives. Hybrid approaches that partially incorporate video-based dynamic learning exhibit intermediate robustness, highlighting the importance of how video priors are integrated.
PDF11April 7, 2026