ChatPaper.aiChatPaper

10 ключевых проблем, определяющих будущее моделей «зрение-язык-действие»

10 Open Challenges Steering the Future of Vision-Language-Action Models

November 8, 2025
Авторы: Soujanya Poria, Navonil Majumder, Chia-Yu Hung, Amir Ali Bagherzadeh, Chuan Li, Kenneth Kwok, Ziwei Wang, Cheston Tan, Jiajun Wu, David Hsu
cs.AI

Аннотация

Благодаря своей способности следовать инструкциям на естественном языке, модели "язык-зрение-действие" (Vision-Language-Action, VLA) получают все большее распространение в области embodied AI, вслед за широким успехом их предшественников — больших языковых моделей (LLM) и моделей "язык-зрение" (VLM). В данной статье мы рассматриваем 10 ключевых этапов в текущем развитии моделей VLA: мультимодальность, логический вывод, данные, оценка, обобщение действий для различных роботов, эффективность, координация всего тела, безопасность, агенты и координация с человеком. Кроме того, мы обсуждаем emerging trends, такие как использование пространственного понимания, моделирование динамики мира, пост-обучение и синтез данных, — все они направлены на достижение этих этапов. Посредством этих обсуждений мы надеемся привлечь внимание к направлениям исследований, которые могут ускорить развитие моделей VLA и способствовать их более широкому принятию.
English
Due to their ability of follow natural language instructions, vision-language-action (VLA) models are increasingly prevalent in the embodied AI arena, following the widespread success of their precursors -- LLMs and VLMs. In this paper, we discuss 10 principal milestones in the ongoing development of VLA models -- multimodality, reasoning, data, evaluation, cross-robot action generalization, efficiency, whole-body coordination, safety, agents, and coordination with humans. Furthermore, we discuss the emerging trends of using spatial understanding, modeling world dynamics, post training, and data synthesis -- all aiming to reach these milestones. Through these discussions, we hope to bring attention to the research avenues that may accelerate the development of VLA models into wider acceptability.
PDF52December 2, 2025