ChatPaper.aiChatPaper

Generaliseren Wereldactiemodellen Beter dan VLA's? Een Robuustheidsstudie

Do World Action Models Generalize Better than VLAs? A Robustness Study

April 1, 2026
Auteurs: Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang
cs.AI

Samenvatting

Robotactieplanning in de echte wereld is uitdagend, omdat het niet alleen vereist dat de huidige toestand van de omgeving wordt begrepen, maar ook dat wordt voorspeld hoe deze zal evolueren in reactie op acties. Vision-language-action (VLA)-modellen, die grootschalige vision-language-modellen hergebruiken voor het genereren van robotacties met behulp van actie-experts, hebben aanzienlijk succes geboekt bij diverse robottaken. Desalniettemin wordt hun prestatieniveau beperkt door de reikwijdte van hun trainingsdata, wat zich uit in beperkte generalisatie naar onbekende scenario's en kwetsbaarheid voor diverse contextuele verstoringen. Wereldmodellen zijn recentelijk opnieuw onderzocht als een alternatief voor VLA's. Deze modellen, wereldactiemodellen (WAMs) genoemd, zijn gebaseerd op wereldmodellen die zijn getraind op grote hoeveelheden videodata om toekomstige toestanden te voorspellen. Met kleine aanpassingen kan hun latente representatie worden gedecodeerd naar robotacties. Er wordt gesuggereerd dat hun expliciete dynamische voorspellingscapaciteit, gecombineerd met spatiotemporele voorkennis verkregen uit web-schaal videovoortraining, WAM's in staat stelt effectiever te generaliseren dan VLA's. In dit artikel voeren we een vergelijkende studie uit van prominente state-of-the-art VLA-beleidsmodellen en recent vrijgegeven WAM's. We evalueren hun prestaties op de LIBERO-Plus en RoboTwin 2.0-Plus benchmarks onder diverse visuele en taalkundige verstoringen. Onze resultaten tonen aan dat WAM's een sterke robuustheid bereiken, waarbij LingBot-VA een slagingspercentage van 74,2% haalt op RoboTwin 2.0-Plus en Cosmos-Policy 82,2% op LIBERO-Plus. Hoewel VLA's zoals π_{0,5} een vergelijkbare robuustheid kunnen bereiken bij bepaalde taken, vereisen zij typisch uitgebreide training met diverse robotdatasets en uiteenlopende leerdoelen. Hybride benaderingen die gedeeltelijk videogebaseerd dynamisch leren incorporeren, vertonen een intermediaire robuustheid, wat het belang benadrukt van hoe videovoor kennis wordt geïntegreerd.
English
Robot action planning in the real world is challenging as it requires not only understanding the current state of the environment but also predicting how it will evolve in response to actions. Vision-language-action (VLA), which repurpose large-scale vision-language models for robot action generation using action experts, have achieved notable success across a variety of robotic tasks. Nevertheless, their performance remains constrained by the scope of their training data, exhibiting limited generalization to unseen scenarios and vulnerability to diverse contextual perturbations. More recently, world models have been revisited as an alternative to VLAs. These models, referred to as world action models (WAMs), are built upon world models that are trained on large corpora of video data to predict future states. With minor adaptations, their latent representation can be decoded into robot actions. It has been suggested that their explicit dynamic prediction capacity, combined with spatiotemporal priors acquired from web-scale video pretraining, enables WAMs to generalize more effectively than VLAs. In this paper, we conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations. Our results show that WAMs achieve strong robustness, with LingBot-VA reaching 74.2% success rate on RoboTwin 2.0-Plus and Cosmos-Policy achieving 82.2% on LIBERO-Plus. While VLAs such as π_{0.5} can achieve comparable robustness on certain tasks, they typically require extensive training with diverse robotic datasets and varied learning objectives. Hybrid approaches that partially incorporate video-based dynamic learning exhibit intermediate robustness, highlighting the importance of how video priors are integrated.
PDF11April 7, 2026