10 ключевых проблем, определяющих будущее моделей «зрение-язык-действие»
10 Open Challenges Steering the Future of Vision-Language-Action Models
November 8, 2025
Авторы: Soujanya Poria, Navonil Majumder, Chia-Yu Hung, Amir Ali Bagherzadeh, Chuan Li, Kenneth Kwok, Ziwei Wang, Cheston Tan, Jiajun Wu, David Hsu
cs.AI
Аннотация
Благодаря своей способности следовать инструкциям на естественном языке, модели "язык-зрение-действие" (Vision-Language-Action, VLA) получают все большее распространение в области embodied AI, вслед за широким успехом их предшественников — больших языковых моделей (LLM) и моделей "язык-зрение" (VLM). В данной статье мы рассматриваем 10 ключевых этапов в текущем развитии моделей VLA: мультимодальность, логический вывод, данные, оценка, обобщение действий для различных роботов, эффективность, координация всего тела, безопасность, агенты и координация с человеком. Кроме того, мы обсуждаем emerging trends, такие как использование пространственного понимания, моделирование динамики мира, пост-обучение и синтез данных, — все они направлены на достижение этих этапов. Посредством этих обсуждений мы надеемся привлечь внимание к направлениям исследований, которые могут ускорить развитие моделей VLA и способствовать их более широкому принятию.
English
Due to their ability of follow natural language instructions,
vision-language-action (VLA) models are increasingly prevalent in the embodied
AI arena, following the widespread success of their precursors -- LLMs and
VLMs. In this paper, we discuss 10 principal milestones in the ongoing
development of VLA models -- multimodality, reasoning, data, evaluation,
cross-robot action generalization, efficiency, whole-body coordination, safety,
agents, and coordination with humans. Furthermore, we discuss the emerging
trends of using spatial understanding, modeling world dynamics, post training,
and data synthesis -- all aiming to reach these milestones. Through these
discussions, we hope to bring attention to the research avenues that may
accelerate the development of VLA models into wider acceptability.