ChatPaper.aiChatPaper

시각-언어-행동 모델의 해부학: 구성 요소부터 주요 이정표와 과제까지

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

December 12, 2025
저자: Chao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng
cs.AI

초록

비전-언어-행동(Vision-Language-Action, VLA) 모델은 기계가 지시를 이해하고 물리적 세계와 상호작용할 수 있도록 하여 로봇공학 분야에 혁명을 일으키고 있습니다. 이 분야는 새로운 모델과 데이터셋이 폭발적으로 증가하며 빠르게 발전하고 있어, 최신 동향을 따라가기는 매우 흥미롭지만 동시에 어려운 과제가 되었습니다. 본 서베이는 VLA 현황을 명확하고 체계적으로 안내하는 것을 목표로 합니다. 저자들은 연구자의 자연스러운 학습 경로를 따라갈 수 있도록 설계하였습니다: 먼저 모든 VLA 모델의 기본 구성 요소인 모듈(Modules)을 소개하고, 주요 역사적 이정표(Milestones)를 추적한 후, 최근 연구 최전선을 정의하는 핵심 과제(Challenges)에 대해 깊이 있게 다룹니다. 본 논문의 주요 기여는 (1) 표현(Representation), (2) 실행(Execution), (3) 일반화(Generalization), (4) 안전성(Safety), (5) 데이터셋 및 평가(Dataset and Evaluation)라는 다섯 가지 핵심 과제에 대한 상세한 분석입니다. 이 구조는 범용 에이전트의 발전 로드맵을 반영합니다: 기본적인 인지-행동 순환을 확립하고, 다양한 구현체와 환경에서 능력을 확장하며, 궁극적으로 신뢰할 수 있는 배치를 보장하는 것—이 모든 과정은 필수적인 데이터 인프라에 의해 지원됩니다. 각 과제에 대해 저자들은 기존 접근법을 검토하고 미래 기회를 강조합니다. 이 논문은 초심자에게는 기초 가이드로, 경험 많은 연구자에게는 전략적 로드맵으로서의 역할을 동시에 수행하여, 구현된 지능(embodied intelligence) 분야의 학습 속도를 높이고 새로운 아이디어를 고취시키는 이중적인 목표를 가지고 있습니다. 본 서베이의 지속적으로 업데이트되는 라이브 버전은 https://suyuz1.github.io/Survery/{project_page}에서 확인할 수 있습니다.
English
Vision-Language-Action (VLA) models are driving a revolution in robotics, enabling machines to understand instructions and interact with the physical world. This field is exploding with new models and datasets, making it both exciting and challenging to keep pace with. This survey offers a clear and structured guide to the VLA landscape. We design it to follow the natural learning path of a researcher: we start with the basic Modules of any VLA model, trace the history through key Milestones, and then dive deep into the core Challenges that define recent research frontier. Our main contribution is a detailed breakdown of the five biggest challenges in: (1) Representation, (2) Execution, (3) Generalization, (4) Safety, and (5) Dataset and Evaluation. This structure mirrors the developmental roadmap of a generalist agent: establishing the fundamental perception-action loop, scaling capabilities across diverse embodiments and environments, and finally ensuring trustworthy deployment-all supported by the essential data infrastructure. For each of them, we review existing approaches and highlight future opportunities. We position this paper as both a foundational guide for newcomers and a strategic roadmap for experienced researchers, with the dual aim of accelerating learning and inspiring new ideas in embodied intelligence. A live version of this survey, with continuous updates, is maintained on our https://suyuz1.github.io/Survery/{project page}.
PDF131December 23, 2025