ChatPaper.aiChatPaper

시각-언어-행동 모델의 미래를 이끌 10가지 공개 과제

10 Open Challenges Steering the Future of Vision-Language-Action Models

November 8, 2025
저자: Soujanya Poria, Navonil Majumder, Chia-Yu Hung, Amir Ali Bagherzadeh, Chuan Li, Kenneth Kwok, Ziwei Wang, Cheston Tan, Jiajun Wu, David Hsu
cs.AI

초록

자연어 명령을 따를 수 있는 능력 덕분에 비전-언어-행동(VLA) 모델은 그 전신인 LLM과 VLM의 광범위한 성공에 이어 구현형 AI 영역에서 점점 더 보편화되고 있습니다. 본 논문에서는 VLA 모델의 지속적인 발전 과정에서 나타나는 10가지 주요 이정표—다중모달성, 추론, 데이터, 평가, 로봇 간 행동 일반화, 효율성, 전신 조율, 안전성, 에이전트, 인간과의 협력—에 대해 논의합니다. 나아가 이러한 이정표에 도달하기 위한 공간 이해 활용, 세계 역학 모델링, 사후 훈련, 데이터 합성 등 신흥 트렌드에 대해서도 살펴봅니다. 이러한 논의를 통해 VLA 모델의 개발이 보다 폭넓은 수용성을 얻는 방향으로 가속화될 수 있는 연구 경로에 주목을促하고자 합니다.
English
Due to their ability of follow natural language instructions, vision-language-action (VLA) models are increasingly prevalent in the embodied AI arena, following the widespread success of their precursors -- LLMs and VLMs. In this paper, we discuss 10 principal milestones in the ongoing development of VLA models -- multimodality, reasoning, data, evaluation, cross-robot action generalization, efficiency, whole-body coordination, safety, agents, and coordination with humans. Furthermore, we discuss the emerging trends of using spatial understanding, modeling world dynamics, post training, and data synthesis -- all aiming to reach these milestones. Through these discussions, we hope to bring attention to the research avenues that may accelerate the development of VLA models into wider acceptability.
PDF52December 2, 2025