Een onderzoek naar efficiënte visie-taal-actie-modellen

Samenvatting

Vision-Language-Action-modellen (VLA's) vertegenwoordigen een belangrijke grens in de embodied intelligence, met als doel digitale kennis te verbinden met interactie in de fysieke wereld. Hoewel deze modellen opmerkelijke generalistische capaciteiten hebben getoond, wordt hun inzet ernstig belemmerd door de aanzienlijke computationele en datavereisten die inherent zijn aan hun onderliggende grootschalige foundation-modellen. Gemotiveerd door de dringende noodzaak om deze uitdagingen aan te pakken, presenteert dit overzicht de eerste uitgebreide evaluatie van Efficient Vision-Language-Action-modellen (Efficiënte VLA's) over het gehele data-model-trainingsproces. Specifiek introduceren we een uniforme taxonomie om de uiteenlopende inspanningen op dit domein systematisch te organiseren, waarbij we huidige technieken indelen in drie kernpijlers: (1) Efficiënt Modelontwerp, gericht op efficiënte architecturen en modelcompressie; (2) Efficiënte Training, die de computationele last tijdens het modelleren vermindert; en (3) Efficiënte Datacollectie, die de knelpunten bij het verkrijgen en gebruiken van robotdata aanpakt. Door een kritische beoordeling van state-of-the-art methoden binnen dit kader, stelt dit overzicht niet alleen een fundamentele referentie voor de gemeenschap vast, maar vat het ook representatieve toepassingen samen, schetst het belangrijke uitdagingen en zet het een routekaart uit voor toekomstig onderzoek. We houden een continu bijgewerkte projectpagina bij om onze laatste ontwikkelingen te volgen: https://evla-survey.github.io/

English

Vision-Language-Action models (VLAs) represent a significant frontier in embodied intelligence, aiming to bridge digital knowledge with physical-world interaction. While these models have demonstrated remarkable generalist capabilities, their deployment is severely hampered by the substantial computational and data requirements inherent to their underlying large-scale foundation models. Motivated by the urgent need to address these challenges, this survey presents the first comprehensive review of Efficient Vision-Language-Action models (Efficient VLAs) across the entire data-model-training process. Specifically, we introduce a unified taxonomy to systematically organize the disparate efforts in this domain, categorizing current techniques into three core pillars: (1) Efficient Model Design, focusing on efficient architectures and model compression; (2) Efficient Training, which reduces computational burdens during model learning; and (3) Efficient Data Collection, which addresses the bottlenecks in acquiring and utilizing robotic data. Through a critical review of state-of-the-art methods within this framework, this survey not only establishes a foundational reference for the community but also summarizes representative applications, delineates key challenges, and charts a roadmap for future research. We maintain a continuously updated project page to track our latest developments: https://evla-survey.github.io/

Een onderzoek naar efficiënte visie-taal-actie-modellen

A Survey on Efficient Vision-Language-Action Models

Samenvatting

Support