Eine Anatomie von Vision-Sprache-Handlung-Modellen: Von Modulen zu Meilensteinen und Herausforderungen
An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges
December 12, 2025
papers.authors: Chao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle treiben eine Revolution in der Robotik voran, indem sie Maschinen befähigen, Anweisungen zu verstehen und mit der physischen Welt zu interagieren. Dieses Forschungsfeld explodiert geradezu mit neuen Modellen und Datensätzen, was es sowohl spannend als auch herausfordernd macht, den Überblick zu behalten. Dieser Übersichtsartikel bietet einen klaren und strukturierten Leitfaden durch die VLA-Landschaft. Wir haben ihn entlang des natürlichen Lernwegs eines Forschers konzipiert: Wir beginnen mit den grundlegenden Modulen jedes VLA-Modells, zeichnen die Geschichte anhand wichtiger Meilensteine nach und tauchen dann tief in die zentralen Herausforderungen ein, die die aktuelle Forschungsfront definieren. Unser Hauptbeitrag ist eine detaillierte Aufschlüsselung der fünf größten Herausforderungen in den Bereichen: (1) Repräsentation, (2) Ausführung, (3) Generalisierung, (4) Sicherheit und (5) Datensätze und Evaluation. Diese Struktur spiegelt den Entwicklungsfahrplan eines generalistischen Agenten wider: Etablierung der fundamentalen Wahrnehmungs-Handlungs-Schleife, Skalierung der Fähigkeiten über verschiedene Verkörperungen und Umgebungen hinweg und schließlich die Gewährleistung eines vertrauenswürdigen Einsatzes – alles unterstützt durch die essentielle Dateninfrastruktur. Für jede dieser Herausforderungen geben wir einen Überblick über bestehende Ansätze und zeigen zukünftige Chancen auf. Wir positionieren dieses Papier sowohl als grundlegenden Leitfaden für Neueinsteiger als auch als strategischen Fahrplan für erfahrene Forscher, mit dem doppelten Ziel, das Lernen zu beschleunigen und neue Ideen in der embodied intelligence zu inspirieren. Eine lebende Version dieses Übersichtsartikels mit kontinuierlichen Aktualisierungen wird auf unserer Projektseite unter https://suyuz1.github.io/Survery/{project page} gepflegt.
English
Vision-Language-Action (VLA) models are driving a revolution in robotics, enabling machines to understand instructions and interact with the physical world. This field is exploding with new models and datasets, making it both exciting and challenging to keep pace with. This survey offers a clear and structured guide to the VLA landscape. We design it to follow the natural learning path of a researcher: we start with the basic Modules of any VLA model, trace the history through key Milestones, and then dive deep into the core Challenges that define recent research frontier. Our main contribution is a detailed breakdown of the five biggest challenges in: (1) Representation, (2) Execution, (3) Generalization, (4) Safety, and (5) Dataset and Evaluation. This structure mirrors the developmental roadmap of a generalist agent: establishing the fundamental perception-action loop, scaling capabilities across diverse embodiments and environments, and finally ensuring trustworthy deployment-all supported by the essential data infrastructure. For each of them, we review existing approaches and highlight future opportunities. We position this paper as both a foundational guide for newcomers and a strategic roadmap for experienced researchers, with the dual aim of accelerating learning and inspiring new ideas in embodied intelligence. A live version of this survey, with continuous updates, is maintained on our https://suyuz1.github.io/Survery/{project page}.