世界行動モデルはVLAよりも一般化性能が優れているのか?ロバスト性に関する研究
Do World Action Models Generalize Better than VLAs? A Robustness Study
April 1, 2026
著者: Zhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang
cs.AI
要旨
実世界におけるロボットの行動計画は、環境の現在状態を理解するだけでなく、行動への応答として環境がどのように変化するかを予測する必要があるため、困難な課題である。大規模視覚言語モデルを行動生成専門家を用いてロボット行動生成に転用するVLA(Vision-Language-Action)モデルは、様々なロボットタスクで顕著な成功を収めている。しかしながら、その性能は学習データの範囲に制約され、未経験のシナリオへの一般化が限定的であり、多様な文脈的摂動に対して脆弱であるという課題を残している。より最近では、VLAに代わる手法として世界モデルが再評価されている。WAM(World Action Models)と呼ばれるこれらのモデルは、未来状態を予測するために大規模なビデオデータで学習された世界モデルを基盤としている。わずかな適応により、その潜在表現をロボット行動にデコードすることが可能である。WAMは、明示的な動的予測能力とWeb規模のビデオ事前学習から得られた時空間的な事前知識を組み合わせることで、VLAよりも効果的に一般化できることが示唆されている。本論文では、最先端のVLAポリシーと最近公開されたWAMの比較研究を行う。LIBERO-PlusおよびRoboTwin 2.0-Plusベンチマークにおいて、様々な視覚的・言語的摂動下での性能を評価した。その結果、WAMは強力なロバスト性を達成し、LingBot-VAはRoboTwin 2.0-Plusで74.2%、Cosmos-PolicyはLIBERO-Plusで82.2%の成功率を示した。π_{0.5}のようなVLAは特定のタスクで同等のロバスト性を達成できる場合もあるが、一般的には多様なロボットデータセットと様々な学習目標を用いた大規模な学習を必要とする。ビデオベースの動的学習を部分的に取り入れたハイブリッド手法は中程度のロバスト性を示し、ビデオ事前知識の統合方法の重要性が浮き彫りとなった。
English
Robot action planning in the real world is challenging as it requires not only understanding the current state of the environment but also predicting how it will evolve in response to actions. Vision-language-action (VLA), which repurpose large-scale vision-language models for robot action generation using action experts, have achieved notable success across a variety of robotic tasks. Nevertheless, their performance remains constrained by the scope of their training data, exhibiting limited generalization to unseen scenarios and vulnerability to diverse contextual perturbations. More recently, world models have been revisited as an alternative to VLAs. These models, referred to as world action models (WAMs), are built upon world models that are trained on large corpora of video data to predict future states. With minor adaptations, their latent representation can be decoded into robot actions. It has been suggested that their explicit dynamic prediction capacity, combined with spatiotemporal priors acquired from web-scale video pretraining, enables WAMs to generalize more effectively than VLAs. In this paper, we conduct a comparative study of prominent state-of-the-art VLA policies and recently released WAMs. We evaluate their performance on the LIBERO-Plus and RoboTwin 2.0-Plus benchmarks under various visual and language perturbations. Our results show that WAMs achieve strong robustness, with LingBot-VA reaching 74.2% success rate on RoboTwin 2.0-Plus and Cosmos-Policy achieving 82.2% on LIBERO-Plus. While VLAs such as π_{0.5} can achieve comparable robustness on certain tasks, they typically require extensive training with diverse robotic datasets and varied learning objectives. Hybrid approaches that partially incorporate video-based dynamic learning exhibit intermediate robustness, highlighting the importance of how video priors are integrated.