Een anatomie van visie-taal-actie-modellen: van modules naar mijlpalen en uitdagingen
An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges
December 12, 2025
Auteurs: Chao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng
cs.AI
Samenvatting
Vision-Language-Action (VLA)-modellen veroorzaken een revolutie in de robotica, doordat ze machines in staat stellen instructies te begrijpen en te interageren met de fysieke wereld. Dit vakgebied explodeert met nieuwe modellen en datasets, wat het zowel opwindend als uitdagend maakt om bij te blijven. Dit overzichtsartikel biedt een duidelijke en gestructureerde gids voor het VLA-landschap. We hebben het ontworpen om het natuurlijke leerpad van een onderzoeker te volgen: we beginnen met de basismodules van elk VLA-model, volgen de geschiedenis via belangrijke mijlpalen en duiken vervolgens diep in de kernuitdagingen die de recente onderzoeksfrontier bepalen. Onze belangrijkste bijdrage is een gedetailleerde uitsplitsing van de vijf grootste uitdagingen op het gebied van: (1) Representatie, (2) Uitvoering, (3) Generalisatie, (4) Veiligheid, en (5) Dataset en Evaluatie. Deze structuur weerspiegelt de ontwikkelingsroutekaart van een generalistisch agent: het vestigen van de fundamentele perceptie-actielus, het schalen van capaciteiten over diverse embodimenten en omgevingen, en ten slotte het waarborgen van een betrouwbare inzet – allemaal ondersteund door de essentiële datainfrastructuur. Voor elk van deze gebieden bespreken we bestaande benaderingen en belichten we toekomstige kansen. We positioneren dit artikel zowel als een fundamentele gids voor nieuwkomers als een strategische routekaart voor ervaren onderzoekers, met het dubbele doel om het leren te versnellen en nieuwe ideeën in embodied intelligence te inspireren. Een live versie van dit overzicht, met continue updates, wordt bijgehouden op onze https://suyuz1.github.io/Survery/{projectpagina}.
English
Vision-Language-Action (VLA) models are driving a revolution in robotics, enabling machines to understand instructions and interact with the physical world. This field is exploding with new models and datasets, making it both exciting and challenging to keep pace with. This survey offers a clear and structured guide to the VLA landscape. We design it to follow the natural learning path of a researcher: we start with the basic Modules of any VLA model, trace the history through key Milestones, and then dive deep into the core Challenges that define recent research frontier. Our main contribution is a detailed breakdown of the five biggest challenges in: (1) Representation, (2) Execution, (3) Generalization, (4) Safety, and (5) Dataset and Evaluation. This structure mirrors the developmental roadmap of a generalist agent: establishing the fundamental perception-action loop, scaling capabilities across diverse embodiments and environments, and finally ensuring trustworthy deployment-all supported by the essential data infrastructure. For each of them, we review existing approaches and highlight future opportunities. We position this paper as both a foundational guide for newcomers and a strategic roadmap for experienced researchers, with the dual aim of accelerating learning and inspiring new ideas in embodied intelligence. A live version of this survey, with continuous updates, is maintained on our https://suyuz1.github.io/Survery/{project page}.