Une enquête sur les modèles efficients vision-langage-action
A Survey on Efficient Vision-Language-Action Models
October 27, 2025
papers.authors: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
cs.AI
papers.abstract
Les modèles vision-langage-action (VLA) représentent une frontière significative dans l'intelligence incarnée, visant à établir un pont entre les connaissances numériques et l'interaction avec le monde physique. Bien que ces modèles aient démontré des capacités généralistes remarquables, leur déploiement est sévèrement entravé par les exigences substantielles en calcul et en données inhérentes à leurs modèles de fondation à grande échelle. Motivée par le besoin urgent de relever ces défis, cette étude présente la première revue complète des modèles efficaces vision-langage-action (VLA efficaces) à travers l'ensemble du processus données-modèle-apprentissage. Plus précisément, nous introduisons une taxonomie unifiée pour organiser systématiquement les efforts disparates dans ce domaine, en catégorisant les techniques actuelles en trois piliers fondamentaux : (1) la conception efficace de modèles, axée sur les architectures efficaces et la compression de modèles ; (2) l'apprentissage efficace, qui réduit les charges computationnelles durant l'apprentissage du modèle ; et (3) la collecte efficace de données, qui aborde les goulots d'étranglement dans l'acquisition et l'utilisation des données robotiques. À travers une analyse critique des méthodes de pointe dans ce cadre, cette étude établit non seulement une référence fondamentale pour la communauté, mais résume également les applications représentatives, délimite les défis clés et trace une feuille de route pour les recherches futures. Nous maintenons une page de projet continuellement mise à jour pour suivre nos derniers développements : https://evla-survey.github.io/
English
Vision-Language-Action models (VLAs) represent a significant frontier in
embodied intelligence, aiming to bridge digital knowledge with physical-world
interaction. While these models have demonstrated remarkable generalist
capabilities, their deployment is severely hampered by the substantial
computational and data requirements inherent to their underlying large-scale
foundation models. Motivated by the urgent need to address these challenges,
this survey presents the first comprehensive review of Efficient
Vision-Language-Action models (Efficient VLAs) across the entire
data-model-training process. Specifically, we introduce a unified taxonomy to
systematically organize the disparate efforts in this domain, categorizing
current techniques into three core pillars: (1) Efficient Model Design,
focusing on efficient architectures and model compression; (2) Efficient
Training, which reduces computational burdens during model learning; and (3)
Efficient Data Collection, which addresses the bottlenecks in acquiring and
utilizing robotic data. Through a critical review of state-of-the-art methods
within this framework, this survey not only establishes a foundational
reference for the community but also summarizes representative applications,
delineates key challenges, and charts a roadmap for future research. We
maintain a continuously updated project page to track our latest developments:
https://evla-survey.github.io/