10 Desafios Abertos que Direcionam o Futuro dos Modelos Visão-Linguagem-Ação
10 Open Challenges Steering the Future of Vision-Language-Action Models
November 8, 2025
Autores: Soujanya Poria, Navonil Majumder, Chia-Yu Hung, Amir Ali Bagherzadeh, Chuan Li, Kenneth Kwok, Ziwei Wang, Cheston Tan, Jiajun Wu, David Hsu
cs.AI
Resumo
Devido à sua capacidade de seguir instruções em linguagem natural, os modelos visão-linguagem-ação (VLA) são cada vez mais prevalentes no cenário de IA incorporada, seguindo o sucesso generalizado de seus precursores — LLMs e VLMs. Neste artigo, discutimos 10 marcos principais no desenvolvimento contínuo dos modelos VLA: multimodalidade, raciocínio, dados, avaliação, generalização de ações entre robôs, eficiência, coordenação corporal total, segurança, agentes e coordenação com humanos. Além disso, discutimos as tendências emergentes de uso de compreensão espacial, modelagem da dinâmica do mundo, pós-treinamento e síntese de dados — todas com o objetivo de alcançar esses marcos. Por meio dessas discussões, esperamos direcionar a atenção para as vias de pesquisa que podem acelerar o desenvolvimento dos modelos VLA rumo a uma aceitação mais ampla.
English
Due to their ability of follow natural language instructions,
vision-language-action (VLA) models are increasingly prevalent in the embodied
AI arena, following the widespread success of their precursors -- LLMs and
VLMs. In this paper, we discuss 10 principal milestones in the ongoing
development of VLA models -- multimodality, reasoning, data, evaluation,
cross-robot action generalization, efficiency, whole-body coordination, safety,
agents, and coordination with humans. Furthermore, we discuss the emerging
trends of using spatial understanding, modeling world dynamics, post training,
and data synthesis -- all aiming to reach these milestones. Through these
discussions, we hope to bring attention to the research avenues that may
accelerate the development of VLA models into wider acceptability.