세계 행동 모델은 VLA보다 일반화 성능이 더 우수한가? 견고성 연구
Do World Action Models Generalize Better than VLAs? A Robustness Study
April 1, 2026
저자: Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang
cs.AI
초록
실제 환경에서 로봇 행동 계획은 환경의 현재 상태를 이해하는 것뿐만 아니라 행동에 따른 환경 변화를 예측해야 하므로 어려운 과제입니다. 행동 전문가를 활용해 대규모 시각-언어 모델을 로봇 행동 생성에 재활용하는 시각-언어-행동(VLA) 모델은 다양한 로봇 작업에서 주목할 만한 성공을 거두었습니다. 그러나 이러한 모델의 성능은 훈련 데이터의 범위에 제한을 받아, 새로운 시나리오로의 일반화 능력이 부족하고 다양한 맥락적 변화에 취약한 한계를 보입니다. 최근에는 VLA의 대안으로 월드 모델이 재조명되고 있습니다. 월드 액션 모델(WAM)로 불리는 이러한 모델은 미래 상태를 예측하기 위해 대규모 비디오 데이터로 훈련된 월드 모델을 기반으로 구축됩니다. 약간의 조정을 통해 이들의 잠재 표현을 로봇 행동으로 디코딩할 수 있습니다. WAM은 명시적인 동역학 예측 능력과 웹 규모 비디오 사전 훈련을 통해 획득한 시공간적 사전 지식이 결합되어 VLA보다 효과적으로 일반화할 수 있다고 알려져 있습니다. 본 논문에서는 주류 최신 VLA 정책들과 최근 공개된 WAM들을 비교 연구합니다. LIBERO-Plus와 RoboTwin 2.0-Plus 벤치마크에서 다양한 시각 및 언어 변화 조건 하에 이들의 성능을 평가한 결과, WAM이 강력한 강인성을 달성함을 확인했습니다. LingBot-VA는 RoboTwin 2.0-Plus에서 74.2%, Cosmos-Policy는 LIBERO-Plus에서 82.2%의 성공률을 기록했습니다. π_{0.5}와 같은 VLA 모델들은 특정 작업에서 비슷한 강인성을 달성할 수 있지만, 일반적으로 다양한 로봇 데이터셋과 다양한 학습 목표를 활용한 방대한 훈련이 필요합니다. 비디오 기반 동역학 학습을 부분적으로 도입한 하이브리드 접근법은 중간 수준의 강인성을 보여주며, 비디오 사전 지통합 방식의 중요성을 강조합니다.
English
Robot action planning in the real world is challenging as it requires not only understanding the current state of the environment but also predicting how it will evolve in response to actions. Vision-language-action (VLA), which repurpose large-scale vision-language models for robot action generation using action experts, have achieved notable success across a variety of robotic tasks. Nevertheless, their performance remains constrained by the scope of their training data, exhibiting limited generalization to unseen scenarios and vulnerability to diverse contextual perturbations. More recently, world models have been revisited as an alternative to VLAs. These models, referred to as world action models (WAMs), are built upon world models that are trained on large corpora of video data to predict future states. With minor adaptations, their latent representation can be decoded into robot actions. It has been suggested that their explicit dynamic prediction capacity, combined with spatiotemporal priors acquired from web-scale video pretraining, enables WAMs to generalize more effectively than VLAs. In this paper, we conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations. Our results show that WAMs achieve strong robustness, with LingBot-VA reaching 74.2% success rate on RoboTwin 2.0-Plus and Cosmos-Policy achieving 82.2% on LIBERO-Plus. While VLAs such as π_{0.5} can achieve comparable robustness on certain tasks, they typically require extensive training with diverse robotic datasets and varied learning objectives. Hybrid approaches that partially incorporate video-based dynamic learning exhibit intermediate robustness, highlighting the importance of how video priors are integrated.