Anatomie des modèles vision-langage-action : des modules aux jalons et défis
An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges
December 12, 2025
papers.authors: Chao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) sont à l'origine d'une révolution en robotique, permettant aux machines de comprendre des instructions et d'interagir avec le monde physique. Ce domaine connaît une explosion de nouveaux modèles et jeux de données, rendant à la fois passionnant et difficile de suivre le rythme. Cette étude offre un guide clair et structuré du paysage des VLA. Nous l'avons conçue pour suivre le parcours d'apprentissage naturel d'un chercheur : nous commençons par les Modules de base de tout modèle VLA, retraçons l'histoire à travers les Jalons clés, puis plongeons au cœur des Défis fondamentaux qui définissent la frontière récente de la recherche. Notre principale contribution est une analyse détaillée des cinq plus grands défis dans les domaines : (1) Représentation, (2) Exécution, (3) Généralisation, (4) Sécurité, et (5) Jeux de données et Évaluation. Cette structure reflète la feuille de route développementale d'un agent généraliste : établir la boucle perception-action fondamentale, étendre les capacités à travers des incarnations et environnements divers, et enfin assurer un déploiement fiable – le tout soutenu par l'infrastructure de données essentielle. Pour chacun d'eux, nous passons en revue les approches existantes et soulignons les opportunités futures. Nous positionnons cet article à la fois comme un guide fondamental pour les nouveaux arrivants et comme une feuille de route stratégique pour les chercheurs expérimentés, avec le double objectif d'accélérer l'apprentissage et d'inspirer de nouvelles idées dans l'intelligence incarnée. Une version vivante de cette étude, avec des mises à jour continues, est maintenue sur notre {page du projet} https://suyuz1.github.io/Survery/.
English
Vision-Language-Action (VLA) models are driving a revolution in robotics, enabling machines to understand instructions and interact with the physical world. This field is exploding with new models and datasets, making it both exciting and challenging to keep pace with. This survey offers a clear and structured guide to the VLA landscape. We design it to follow the natural learning path of a researcher: we start with the basic Modules of any VLA model, trace the history through key Milestones, and then dive deep into the core Challenges that define recent research frontier. Our main contribution is a detailed breakdown of the five biggest challenges in: (1) Representation, (2) Execution, (3) Generalization, (4) Safety, and (5) Dataset and Evaluation. This structure mirrors the developmental roadmap of a generalist agent: establishing the fundamental perception-action loop, scaling capabilities across diverse embodiments and environments, and finally ensuring trustworthy deployment-all supported by the essential data infrastructure. For each of them, we review existing approaches and highlight future opportunities. We position this paper as both a foundational guide for newcomers and a strategic roadmap for experienced researchers, with the dual aim of accelerating learning and inspiring new ideas in embodied intelligence. A live version of this survey, with continuous updates, is maintained on our https://suyuz1.github.io/Survery/{project page}.