I Modelli di Azione Mondiale Generalizzano Meglio dei VLA? Uno Studio sulla Robustezza
Do World Action Models Generalize Better than VLAs? A Robustness Study
April 1, 2026
Autori: Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang
cs.AI
Abstract
La pianificazione delle azioni robotiche nel mondo reale è impegnativa poiché richiede non solo la comprensione dello stato attuale dell'ambiente, ma anche la previsione della sua evoluzione in risposta alle azioni. I modelli visione-linguaggio-azione (VLA), che riadattano modelli linguistico-visivi su larga scala per la generazione di azioni robotiche mediante l'uso di esperti d'azione, hanno ottenuto successi significativi in varie attività robotiche. Tuttavia, le loro prestazioni rimangono limitate dall'ambito dei dati di addestramento, mostrando una generalizzazione ridotta per scenari non visti e una vulnerabilità a diverse perturbazioni contestuali. Più recentemente, i modelli mondiali sono stati rivalutati come alternativa ai VLA. Questi modelli, denominati modelli d'azione mondiali (WAM), sono costruiti su modelli mondiali addestrati su ampi corpora di dati video per prevedere stati futuri. Con lievi adattamenti, la loro rappresentazione latente può essere decodificata in azioni robotiche. Si ritiene che la loro esplicita capacità predittiva dinamica, combinata con prior spazio-temporali acquisite dal pre-addestramento su video web-scale, consenta ai WAM di generalizzare più efficacemente rispetto ai VLA. In questo articolo, conduciamo uno studio comparativo di prominenti politiche VLA allo stato dell'arte e di WAM recentemente rilasciati. Valutiamo le loro prestazioni sui benchmark LIBERO-Plus e RoboTwin 2.0-Plus sotto varie perturbazioni visive e linguistiche. I nostri risultati mostrano che i WAM raggiungono una forte robustezza, con LingBot-VA che raggiunge il 74,2% di tasso di successo su RoboTwin 2.0-Plus e Cosmos-Policy che raggiunge l'82,2% su LIBERO-Plus. Sebbene VLA come π_{0,5} possano raggiungere una robustezza comparabile su determinati compiti, tipicamente richiedono un addestramento estensivo con dataset robotici diversificati e obiettivi di apprendimento variati. Approcci ibridi che incorporano parzialmente l'apprendimento dinamico basato su video mostrano una robustezza intermedia, evidenziando l'importanza di come i prior video sono integrati.
English
Robot action planning in the real world is challenging as it requires not only understanding the current state of the environment but also predicting how it will evolve in response to actions. Vision-language-action (VLA), which repurpose large-scale vision-language models for robot action generation using action experts, have achieved notable success across a variety of robotic tasks. Nevertheless, their performance remains constrained by the scope of their training data, exhibiting limited generalization to unseen scenarios and vulnerability to diverse contextual perturbations. More recently, world models have been revisited as an alternative to VLAs. These models, referred to as world action models (WAMs), are built upon world models that are trained on large corpora of video data to predict future states. With minor adaptations, their latent representation can be decoded into robot actions. It has been suggested that their explicit dynamic prediction capacity, combined with spatiotemporal priors acquired from web-scale video pretraining, enables WAMs to generalize more effectively than VLAs. In this paper, we conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations. Our results show that WAMs achieve strong robustness, with LingBot-VA reaching 74.2% success rate on RoboTwin 2.0-Plus and Cosmos-Policy achieving 82.2% on LIBERO-Plus. While VLAs such as π_{0.5} can achieve comparable robustness on certain tasks, they typically require extensive training with diverse robotic datasets and varied learning objectives. Hybrid approaches that partially incorporate video-based dynamic learning exhibit intermediate robustness, highlighting the importance of how video priors are integrated.