ChatPaper.aiChatPaper

Generalisieren Weltaktionsmodelle besser als VLAs? Eine Robustheitsstudie

Do World Action Models Generalize Better than VLAs? A Robustness Study

April 1, 2026
Autoren: Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang
cs.AI

Zusammenfassung

Die Planung von Roboteraktionen in der realen Welt ist herausfordernd, da sie nicht nur das Verständnis des aktuellen Umweltzustands erfordert, sondern auch die Vorhersage, wie sich diese als Reaktion auf Aktionen entwickeln wird. Vision-Language-Action-Modelle (VLA), die großskalige Vision-Language-Modelle mittels Action-Experten zur Generierung von Roboteraktionen umwidmen, haben bemerkenswerte Erfolge bei verschiedenen Robotikaufgaben erzielt. Dennoch bleibt ihre Leistung durch den Umfang ihrer Trainingsdaten begrenzt, was sich in einer eingeschränkten Generalisierung auf ungesehene Szenarien und einer Anfälligkeit für diverse kontextuelle Störungen äußert. In jüngerer Zeit wurden Weltmodelle erneut als Alternative zu VLAs untersucht. Diese Modelle, bezeichnet als World Action Models (WAMs), basieren auf Weltmodellen, die auf großen Videodatenkorpora trainiert werden, um zukünftige Zustände vorherzusagen. Mit geringen Anpassungen kann ihre latente Repräsentation in Roboteraktionen decodiert werden. Es wird angenommen, dass ihre explizite Dynamik-Vorhersagefähigkeit in Kombination mit räumlich-zeitlichen Priors, die durch vortrainieren auf videobasierten Daten im Web-Scale erworben wurden, WAMs eine effektivere Generalisierung als VLAs ermöglicht. In dieser Arbeit führen wir eine vergleichende Studie von prominenten state-of-the-art VLA-Policies und kürzlich veröffentlichten WAMs durch. Wir bewerten ihre Leistung auf den Benchmarks LIBERO-Plus und RoboTwin 2.0-Plus unter verschiedenen visuellen und sprachlichen Störungen. Unsere Ergebnisse zeigen, dass WAMs eine starke Robustheit erreichen, wobei LingBot-VA eine Erfolgsrate von 74,2 % auf RoboTwin 2.0-Plus und Cosmos-Policy 82,2 % auf LIBERO-Plus erzielt. Während VLAs wie π_{0,5} bei bestimmten Aufgaben eine vergleichbare Robustheit erreichen können, benötigen sie typischerweise umfangreiches Training mit diversen Robotikdatensätzen und variierten Lernzielen. Hybride Ansätze, die videobasiertes dynamisches Lernen teilweise integrieren, zeigen eine mittlere Robustheit, was die Bedeutung der Integrationsweise von Video-Priors unterstreicht.
English
Robot action planning in the real world is challenging as it requires not only understanding the current state of the environment but also predicting how it will evolve in response to actions. Vision-language-action (VLA), which repurpose large-scale vision-language models for robot action generation using action experts, have achieved notable success across a variety of robotic tasks. Nevertheless, their performance remains constrained by the scope of their training data, exhibiting limited generalization to unseen scenarios and vulnerability to diverse contextual perturbations. More recently, world models have been revisited as an alternative to VLAs. These models, referred to as world action models (WAMs), are built upon world models that are trained on large corpora of video data to predict future states. With minor adaptations, their latent representation can be decoded into robot actions. It has been suggested that their explicit dynamic prediction capacity, combined with spatiotemporal priors acquired from web-scale video pretraining, enables WAMs to generalize more effectively than VLAs. In this paper, we conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations. Our results show that WAMs achieve strong robustness, with LingBot-VA reaching 74.2% success rate on RoboTwin 2.0-Plus and Cosmos-Policy achieving 82.2% on LIBERO-Plus. While VLAs such as π_{0.5} can achieve comparable robustness on certain tasks, they typically require extensive training with diverse robotic datasets and varied learning objectives. Hybrid approaches that partially incorporate video-based dynamic learning exhibit intermediate robustness, highlighting the importance of how video priors are integrated.
PDF11April 7, 2026