Une enquête sur les modèles efficients vision-langage-action

papers.abstract

Les modèles vision-langage-action (VLA) représentent une frontière significative dans l'intelligence incarnée, visant à établir un pont entre les connaissances numériques et l'interaction avec le monde physique. Bien que ces modèles aient démontré des capacités généralistes remarquables, leur déploiement est sévèrement entravé par les exigences substantielles en calcul et en données inhérentes à leurs modèles de fondation à grande échelle. Motivée par le besoin urgent de relever ces défis, cette étude présente la première revue complète des modèles efficaces vision-langage-action (VLA efficaces) à travers l'ensemble du processus données-modèle-apprentissage. Plus précisément, nous introduisons une taxonomie unifiée pour organiser systématiquement les efforts disparates dans ce domaine, en catégorisant les techniques actuelles en trois piliers fondamentaux : (1) la conception efficace de modèles, axée sur les architectures efficaces et la compression de modèles ; (2) l'apprentissage efficace, qui réduit les charges computationnelles durant l'apprentissage du modèle ; et (3) la collecte efficace de données, qui aborde les goulots d'étranglement dans l'acquisition et l'utilisation des données robotiques. À travers une analyse critique des méthodes de pointe dans ce cadre, cette étude établit non seulement une référence fondamentale pour la communauté, mais résume également les applications représentatives, délimite les défis clés et trace une feuille de route pour les recherches futures. Nous maintenons une page de projet continuellement mise à jour pour suivre nos derniers développements : https://evla-survey.github.io/

English

Vision-Language-Action models (VLAs) represent a significant frontier in embodied intelligence, aiming to bridge digital knowledge with physical-world interaction. While these models have demonstrated remarkable generalist capabilities, their deployment is severely hampered by the substantial computational and data requirements inherent to their underlying large-scale foundation models. Motivated by the urgent need to address these challenges, this survey presents the first comprehensive review of Efficient Vision-Language-Action models (Efficient VLAs) across the entire data-model-training process. Specifically, we introduce a unified taxonomy to systematically organize the disparate efforts in this domain, categorizing current techniques into three core pillars: (1) Efficient Model Design, focusing on efficient architectures and model compression; (2) Efficient Training, which reduces computational burdens during model learning; and (3) Efficient Data Collection, which addresses the bottlenecks in acquiring and utilizing robotic data. Through a critical review of state-of-the-art methods within this framework, this survey not only establishes a foundational reference for the community but also summarizes representative applications, delineates key challenges, and charts a roadmap for future research. We maintain a continuously updated project page to track our latest developments: https://evla-survey.github.io/

Une enquête sur les modèles efficients vision-langage-action

A Survey on Efficient Vision-Language-Action Models

papers.abstract

Support