Eine Übersicht zu effizienten Vision-Sprache-Handlung-Modellen
A Survey on Efficient Vision-Language-Action Models
October 27, 2025
papers.authors: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
cs.AI
papers.abstract
Vision-Language-Action-Modelle (VLAs) stellen eine bedeutende Grenzfläche der verkörperten Intelligenz dar, die darauf abzielt, digitales Wissen mit physischer Weltinteraktion zu verbinden. Obwohl diese Modelle bemerkenswerte generalistische Fähigkeiten demonstriert haben, wird ihr Einsatz erheblich durch die beträchtlichen Rechen- und Datenanforderungen behindert, die ihren zugrundeliegenden großskaligen Fundamentmodellen inhärent sind. Angespornt durch die dringende Notwendigkeit, diese Herausforderungen anzugehen, präsentiert dieser Übersichtsartikel die erste umfassende Betrachtung effizienter Vision-Language-Action-Modelle (Efficient VLAs) über den gesamten Daten-Modell-Trainings-Prozess hinweg. Konkret führen wir eine einheitliche Taxonomie ein, um die unterschiedlichen Bemühungen auf diesem Gebiet systematisch zu ordnen, und kategorisieren aktuelle Techniken in drei Kernpfeiler: (1) Effizientes Modelldesign, das sich auf effiziente Architekturen und Modellkompression konzentriert; (2) Effizientes Training, das den Rechenaufwand während des Modelllernens reduziert; und (3) Effiziente Datensammlung, die Engpässe bei der Erfassung und Nutzung robotischer Daten adressiert. Durch eine kritische Würdigung modernster Methoden innerhalb dieses Rahmens etabliert dieser Übersichtsartikel nicht nur eine grundlegende Referenz für die Community, sondern fasst auch repräsentative Anwendungen zusammen, skizziert zentrale Herausforderungen und zeichnet eine Roadmap für zukünftige Forschung. Wir pflegen eine kontinuierlich aktualisierte Projektseite, um unsere neuesten Entwicklungen zu verfolgen: https://evla-survey.github.io/
English
Vision-Language-Action models (VLAs) represent a significant frontier in
embodied intelligence, aiming to bridge digital knowledge with physical-world
interaction. While these models have demonstrated remarkable generalist
capabilities, their deployment is severely hampered by the substantial
computational and data requirements inherent to their underlying large-scale
foundation models. Motivated by the urgent need to address these challenges,
this survey presents the first comprehensive review of Efficient
Vision-Language-Action models (Efficient VLAs) across the entire
data-model-training process. Specifically, we introduce a unified taxonomy to
systematically organize the disparate efforts in this domain, categorizing
current techniques into three core pillars: (1) Efficient Model Design,
focusing on efficient architectures and model compression; (2) Efficient
Training, which reduces computational burdens during model learning; and (3)
Efficient Data Collection, which addresses the bottlenecks in acquiring and
utilizing robotic data. Through a critical review of state-of-the-art methods
within this framework, this survey not only establishes a foundational
reference for the community but also summarizes representative applications,
delineates key challenges, and charts a roadmap for future research. We
maintain a continuously updated project page to track our latest developments:
https://evla-survey.github.io/