10 Desafíos Abiertos que Dirigen el Futuro de los Modelos de Visión-Lenguaje-Acción
10 Open Challenges Steering the Future of Vision-Language-Action Models
November 8, 2025
Autores: Soujanya Poria, Navonil Majumder, Chia-Yu Hung, Amir Ali Bagherzadeh, Chuan Li, Kenneth Kwok, Ziwei Wang, Cheston Tan, Jiajun Wu, David Hsu
cs.AI
Resumen
Debido a su capacidad para seguir instrucciones en lenguaje natural, los modelos de visión-lenguaje-acción (VLA) son cada vez más frecuentes en el ámbito de la IA encarnada, tras el éxito generalizado de sus precursores: los modelos de lenguaje grande (LLM) y los modelos de visión y lenguaje (VLM). En este artículo, analizamos 10 hitos principales en el desarrollo continuo de los modelos VLA: multimodalidad, razonamiento, datos, evaluación, generalización de acciones entre robots, eficiencia, coordinación corporal completa, seguridad, agentes y coordinación con humanos. Además, discutimos las tendencias emergentes del uso de la comprensión espacial, el modelado de la dinámica del mundo, el post-entrenamiento y la síntesis de datos, todo ello con el objetivo de alcanzar estos hitos. A través de estas discusiones, esperamos llamar la atención sobre las vías de investigación que pueden acelerar el desarrollo de los modelos VLA hacia una aceptación más amplia.
English
Due to their ability of follow natural language instructions,
vision-language-action (VLA) models are increasingly prevalent in the embodied
AI arena, following the widespread success of their precursors -- LLMs and
VLMs. In this paper, we discuss 10 principal milestones in the ongoing
development of VLA models -- multimodality, reasoning, data, evaluation,
cross-robot action generalization, efficiency, whole-body coordination, safety,
agents, and coordination with humans. Furthermore, we discuss the emerging
trends of using spatial understanding, modeling world dynamics, post training,
and data synthesis -- all aiming to reach these milestones. Through these
discussions, we hope to bring attention to the research avenues that may
accelerate the development of VLA models into wider acceptability.