ChatPaper.aiChatPaper

Anatomía de los Modelos Visión-Lenguaje-Acción: De Módulos a Hitos y Desafíos

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

December 12, 2025
Autores: Chao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng
cs.AI

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) están impulsando una revolución en la robótica, permitiendo que las máquinas comprendan instrucciones e interactúen con el mundo físico. Este campo está experimentando una explosión de nuevos modelos y conjuntos de datos, lo que hace que mantenerse al día sea a la vez emocionante y desafiante. Esta revisión ofrece una guía clara y estructurada del panorama de los VLA. La hemos diseñado para seguir la ruta de aprendizaje natural de un investigador: comenzamos con los Módulos básicos de cualquier modelo VLA, trazamos la historia a través de los principales Hitos y luego profundizamos en los desafíos centrales que definen la frontera de investigación reciente. Nuestra principal contribución es un desglose detallado de los cinco mayores desafíos en: (1) Representación, (2) Ejecución, (3) Generalización, (4) Seguridad, y (5) Datos y Evaluación. Esta estructura refleja la hoja de ruta de desarrollo de un agente generalista: establecer el bucle fundamental de percepción-acción, escalar capacidades a través de diversas materializaciones y entornos, y finalmente garantizar un despliegue confiable, todo ello respaldado por la infraestructura de datos esencial. Para cada uno de ellos, revisamos los enfoques existentes y destacamos oportunidades futuras. Posicionamos este artículo tanto como una guía fundamental para los recién llegados como una hoja de ruta estratégica para investigadores experimentados, con el doble objetivo de acelerar el aprendizaje e inspirar nuevas ideas en inteligencia corporeizada. Se mantiene una versión en vivo de esta revisión, con actualizaciones continuas, en nuestra {página del proyecto} https://suyuz1.github.io/Survery/.
English
Vision-Language-Action (VLA) models are driving a revolution in robotics, enabling machines to understand instructions and interact with the physical world. This field is exploding with new models and datasets, making it both exciting and challenging to keep pace with. This survey offers a clear and structured guide to the VLA landscape. We design it to follow the natural learning path of a researcher: we start with the basic Modules of any VLA model, trace the history through key Milestones, and then dive deep into the core Challenges that define recent research frontier. Our main contribution is a detailed breakdown of the five biggest challenges in: (1) Representation, (2) Execution, (3) Generalization, (4) Safety, and (5) Dataset and Evaluation. This structure mirrors the developmental roadmap of a generalist agent: establishing the fundamental perception-action loop, scaling capabilities across diverse embodiments and environments, and finally ensuring trustworthy deployment-all supported by the essential data infrastructure. For each of them, we review existing approaches and highlight future opportunities. We position this paper as both a foundational guide for newcomers and a strategic roadmap for experienced researchers, with the dual aim of accelerating learning and inspiring new ideas in embodied intelligence. A live version of this survey, with continuous updates, is maintained on our https://suyuz1.github.io/Survery/{project page}.
PDF131December 23, 2025