ChatPaper.aiChatPaper

視覚-言語-行動モデルの解剖学:モジュールからマイルストーン、課題まで

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

December 12, 2025
著者: Chao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng
cs.AI

要旨

Vision-Language-Action (VLA) モデルは、機械が指示を理解し物理世界と対話することを可能にし、ロボティクスにおける革命を推進している。この分野は新たなモデルとデータセットが爆発的に増加しており、その進歩に追従することは非常に刺激的であると同時に困難でもある。本サーベイは、VLAの研究状況を明確かつ構造化された形で整理するガイドを提供する。我々は研究者の自然な学習経路に沿うように設計した。すなわち、あらゆるVLAモデルの基本構成要素から始め、主要なマイルストーンを通して歴史を辿り、最近の研究フロンティアを定義する中核的な課題に深く立ち入る。我々の主な貢献は、(1) 表現、(2) 実行、(3) 汎化、(4) 安全性、(5) データセットと評価、という5つの最大の課題に対する詳細な分析である。この構造は、汎用エージェントの開発ロードマップを反映している。すなわち、基本的な知覚-行動ループを確立し、多様な身体性と環境にわたって能力を拡張し、最終的には信頼できる展開を保証する——これら全てが不可欠なデータ基盤によって支えられる。それぞれについて、既存のアプローチを概観し、将来の機会を強調する。本論文は、新規参入者にとっての基礎的ガイドであると同時に、経験豊富な研究者にとっての戦略的ロードマップとして位置づけ、具身化知能における学習の加速と新たなアイデアの創出という二重の目的を目指す。本サーベイの最新版は、継続的に更新され、プロジェクトページ (https://suyuz1.github.io/Survery/) で公開されている。
English
Vision-Language-Action (VLA) models are driving a revolution in robotics, enabling machines to understand instructions and interact with the physical world. This field is exploding with new models and datasets, making it both exciting and challenging to keep pace with. This survey offers a clear and structured guide to the VLA landscape. We design it to follow the natural learning path of a researcher: we start with the basic Modules of any VLA model, trace the history through key Milestones, and then dive deep into the core Challenges that define recent research frontier. Our main contribution is a detailed breakdown of the five biggest challenges in: (1) Representation, (2) Execution, (3) Generalization, (4) Safety, and (5) Dataset and Evaluation. This structure mirrors the developmental roadmap of a generalist agent: establishing the fundamental perception-action loop, scaling capabilities across diverse embodiments and environments, and finally ensuring trustworthy deployment-all supported by the essential data infrastructure. For each of them, we review existing approaches and highlight future opportunities. We position this paper as both a foundational guide for newcomers and a strategic roadmap for experienced researchers, with the dual aim of accelerating learning and inspiring new ideas in embodied intelligence. A live version of this survey, with continuous updates, is maintained on our https://suyuz1.github.io/Survery/{project page}.
PDF131December 23, 2025