ChatPaper.aiChatPaper

¿Generalizan Mejor los Modelos de Acción Mundial que los VLA? Un Estudio de Robustez

Do World Action Models Generalize Better than VLAs? A Robustness Study

April 1, 2026
Autores: Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang
cs.AI

Resumen

La planificación de acciones robóticas en el mundo real es un desafío, ya que requiere no solo comprender el estado actual del entorno, sino también predecir cómo este evolucionará en respuesta a las acciones. Los modelos visión-lenguaje-acción (VLA), que readaptan modelos de lenguaje visual a gran escala para la generación de acciones robóticas utilizando expertos en acciones, han logrado un éxito notable en diversas tareas de robótica. Sin embargo, su rendimiento sigue estando limitado por el alcance de sus datos de entrenamiento, mostrando una generalización limitada a escenarios no vistos y vulnerabilidad a diversas perturbaciones contextuales. Más recientemente, los modelos del mundo han sido reconsiderados como una alternativa a los VLA. Estos modelos, denominados modelos de acción del mundo (WAMs), se basan en modelos del mundo entrenados con grandes corpus de datos de video para predecir estados futuros. Con adaptaciones menores, su representación latente puede decodificarse en acciones robóticas. Se ha sugerido que su capacidad explícita de predicción dinámica, combinada con los conocimientos espacio-temporales adquiridos del preentrenamiento con videos a escala web, permite a los WAMs generalizar más eficazmente que los VLA. En este artículo, realizamos un estudio comparativo de políticas VLA prominentes de última generación y WAMs recientemente publicados. Evaluamos su rendimiento en los benchmarks LIBERO-Plus y RoboTwin 2.0-Plus bajo diversas perturbaciones visuales y lingüísticas. Nuestros resultados muestran que los WAMs logran una sólida robustez, con LingBot-VA alcanzando una tasa de éxito del 74.2% en RoboTwin 2.0-Plus y Cosmos-Policy logrando un 82.2% en LIBERO-Plus. Si bien los VLA como π_{0.5} pueden alcanzar una robustez comparable en ciertas tareas, generalmente requieren un entrenamiento extensivo con diversos conjuntos de datos robóticos y variados objetivos de aprendizaje. Los enfoques híbridos que incorporan parcialmente el aprendizaje dinámico basado en video exhiben una robustez intermedia, destacando la importancia de cómo se integran los conocimientos previos del video.
English
Robot action planning in the real world is challenging as it requires not only understanding the current state of the environment but also predicting how it will evolve in response to actions. Vision-language-action (VLA), which repurpose large-scale vision-language models for robot action generation using action experts, have achieved notable success across a variety of robotic tasks. Nevertheless, their performance remains constrained by the scope of their training data, exhibiting limited generalization to unseen scenarios and vulnerability to diverse contextual perturbations. More recently, world models have been revisited as an alternative to VLAs. These models, referred to as world action models (WAMs), are built upon world models that are trained on large corpora of video data to predict future states. With minor adaptations, their latent representation can be decoded into robot actions. It has been suggested that their explicit dynamic prediction capacity, combined with spatiotemporal priors acquired from web-scale video pretraining, enables WAMs to generalize more effectively than VLAs. In this paper, we conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations. Our results show that WAMs achieve strong robustness, with LingBot-VA reaching 74.2% success rate on RoboTwin 2.0-Plus and Cosmos-Policy achieving 82.2% on LIBERO-Plus. While VLAs such as π_{0.5} can achieve comparable robustness on certain tasks, they typically require extensive training with diverse robotic datasets and varied learning objectives. Hybrid approaches that partially incorporate video-based dynamic learning exhibit intermediate robustness, highlighting the importance of how video priors are integrated.
PDF11April 7, 2026