Обобщают ли модели мирового действия лучше, чем VLA? Исследование устойчивости
Do World Action Models Generalize Better than VLAs? A Robustness Study
April 1, 2026
Авторы: Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang
cs.AI
Аннотация
Планирование действий роботов в реальном мире является сложной задачей, поскольку требует не только понимания текущего состояния окружающей среды, но и прогнозирования ее изменений в ответ на действия. Модели "визуальный язык-действие" (VLA), которые адаптируют крупномасштабные визуально-языковые модели для генерации действий роботов с использованием экспертов по действиям, достигли значительных успехов в решении различных робототехнических задач. Тем не менее, их производительность остается ограниченной объемом обучающих данных, демонстрируя слабую обобщающую способность к новым сценариям и уязвимость к разнообразным контекстным возмущениям. В последнее время мировые модели были пересмотрены как альтернатива VLA. Эти модели, называемые мировыми моделями действий (WAM), строятся на основе мировых моделей, обученных на больших корпусах видеоданных для прогнозирования будущих состояний. С незначительными доработками их латентное представление можно декодировать в действия робота. Предполагается, что их явная способность к динамическому прогнозированию в сочетании с пространственно-временными априорными знаниями, полученными в результате предварительного обучения на веб-масштабных видеоданных, позволяет WAM обобщать более эффективно, чем VLA. В данной статье мы проводим сравнительное исследование передовых VLA-политик и недавно выпущенных WAM. Мы оцениваем их производительность на бенчмарках LIBERO-Plus и RoboTwin 2.0-Plus при различных визуальных и языковых возмущениях. Наши результаты показывают, что WAM демонстрируют высокую устойчивость: LingBot-VA достигает 74.2% успеха на RoboTwin 2.0-Plus, а Cosmos-Policy — 82.2% на LIBERO-Plus. Хотя такие VLA, как π_{0.5}, могут достигать сопоставимой устойчивости в определенных задачах, они обычно требуют обширного обучения на разнообразных робототехнических наборах данных с различными целевыми функциями. Гибридные подходы, частично включающие обучение динамике на основе видео, демонстрируют промежуточную устойчивость, что подчеркивает важность способа интеграции видеоаприорных знаний.
English
Robot action planning in the real world is challenging as it requires not only understanding the current state of the environment but also predicting how it will evolve in response to actions. Vision-language-action (VLA), which repurpose large-scale vision-language models for robot action generation using action experts, have achieved notable success across a variety of robotic tasks. Nevertheless, their performance remains constrained by the scope of their training data, exhibiting limited generalization to unseen scenarios and vulnerability to diverse contextual perturbations. More recently, world models have been revisited as an alternative to VLAs. These models, referred to as world action models (WAMs), are built upon world models that are trained on large corpora of video data to predict future states. With minor adaptations, their latent representation can be decoded into robot actions. It has been suggested that their explicit dynamic prediction capacity, combined with spatiotemporal priors acquired from web-scale video pretraining, enables WAMs to generalize more effectively than VLAs. In this paper, we conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations. Our results show that WAMs achieve strong robustness, with LingBot-VA reaching 74.2% success rate on RoboTwin 2.0-Plus and Cosmos-Policy achieving 82.2% on LIBERO-Plus. While VLAs such as π_{0.5} can achieve comparable robustness on certain tasks, they typically require extensive training with diverse robotic datasets and varied learning objectives. Hybrid approaches that partially incorporate video-based dynamic learning exhibit intermediate robustness, highlighting the importance of how video priors are integrated.