Een onderzoek naar efficiënte visie-taal-actie-modellen
A Survey on Efficient Vision-Language-Action Models
October 27, 2025
Auteurs: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
cs.AI
Samenvatting
Vision-Language-Action-modellen (VLA's) vertegenwoordigen een belangrijke grens in de embodied intelligence, met als doel digitale kennis te verbinden met interactie in de fysieke wereld. Hoewel deze modellen opmerkelijke generalistische capaciteiten hebben getoond, wordt hun inzet ernstig belemmerd door de aanzienlijke computationele en datavereisten die inherent zijn aan hun onderliggende grootschalige foundation-modellen. Gemotiveerd door de dringende noodzaak om deze uitdagingen aan te pakken, presenteert dit overzicht de eerste uitgebreide evaluatie van Efficient Vision-Language-Action-modellen (Efficiënte VLA's) over het gehele data-model-trainingsproces. Specifiek introduceren we een uniforme taxonomie om de uiteenlopende inspanningen op dit domein systematisch te organiseren, waarbij we huidige technieken indelen in drie kernpijlers: (1) Efficiënt Modelontwerp, gericht op efficiënte architecturen en modelcompressie; (2) Efficiënte Training, die de computationele last tijdens het modelleren vermindert; en (3) Efficiënte Datacollectie, die de knelpunten bij het verkrijgen en gebruiken van robotdata aanpakt. Door een kritische beoordeling van state-of-the-art methoden binnen dit kader, stelt dit overzicht niet alleen een fundamentele referentie voor de gemeenschap vast, maar vat het ook representatieve toepassingen samen, schetst het belangrijke uitdagingen en zet het een routekaart uit voor toekomstig onderzoek. We houden een continu bijgewerkte projectpagina bij om onze laatste ontwikkelingen te volgen: https://evla-survey.github.io/
English
Vision-Language-Action models (VLAs) represent a significant frontier in
embodied intelligence, aiming to bridge digital knowledge with physical-world
interaction. While these models have demonstrated remarkable generalist
capabilities, their deployment is severely hampered by the substantial
computational and data requirements inherent to their underlying large-scale
foundation models. Motivated by the urgent need to address these challenges,
this survey presents the first comprehensive review of Efficient
Vision-Language-Action models (Efficient VLAs) across the entire
data-model-training process. Specifically, we introduce a unified taxonomy to
systematically organize the disparate efforts in this domain, categorizing
current techniques into three core pillars: (1) Efficient Model Design,
focusing on efficient architectures and model compression; (2) Efficient
Training, which reduces computational burdens during model learning; and (3)
Efficient Data Collection, which addresses the bottlenecks in acquiring and
utilizing robotic data. Through a critical review of state-of-the-art methods
within this framework, this survey not only establishes a foundational
reference for the community but also summarizes representative applications,
delineates key challenges, and charts a roadmap for future research. We
maintain a continuously updated project page to track our latest developments:
https://evla-survey.github.io/