効率的な視覚-言語-行動モデルに関する調査
A Survey on Efficient Vision-Language-Action Models
October 27, 2025
著者: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
cs.AI
要旨
Vision-Language-Actionモデル(VLA)は、デジタル知識と物理世界での相互作用を橋渡しすることを目指し、具身知能における重要なフロンティアを代表する。これらのモデルは顕著なゼロショット能力を示している一方で、その基盤となる大規模基盤モデルに内在する膨大な計算量とデータ要件によって、実用化が大きく阻まれている。こうした課題解決の緊急性に動機付けられ、本サーベイは、データ・モデル・学習の全プロセスにわたる Efficient Vision-Language-Actionモデル(Efficient VLA)に関する初の包括的なレビューを提示する。具体的には、この分野の様々な取り組みを体系的に整理するための統一的な分類法を導入し、現行の技術を以下の3つの核心的柱に分類する:(1) 効率的なモデル設計(効率的なアーキテクチャとモデル圧縮に焦点)、(2) 効率的な学習(モデル学習時の計算負荷を軽減)、(3) 効率的なデータ収集(ロボットデータの取得と利用におけるボトルネックへの対処)。この枠組みに基づく最新手法の批判的レビューを通じて、本サーベイはコミュニティに対する基礎的な参照資料を確立するだけでなく、代表的な応用例をまとめ、主要な課題を明らかにし、将来研究のためのロードマップを示す。最新の進展を追跡するため、継続的に更新されるプロジェクトページを維持している:https://evla-survey.github.io/
English
Vision-Language-Action models (VLAs) represent a significant frontier in
embodied intelligence, aiming to bridge digital knowledge with physical-world
interaction. While these models have demonstrated remarkable generalist
capabilities, their deployment is severely hampered by the substantial
computational and data requirements inherent to their underlying large-scale
foundation models. Motivated by the urgent need to address these challenges,
this survey presents the first comprehensive review of Efficient
Vision-Language-Action models (Efficient VLAs) across the entire
data-model-training process. Specifically, we introduce a unified taxonomy to
systematically organize the disparate efforts in this domain, categorizing
current techniques into three core pillars: (1) Efficient Model Design,
focusing on efficient architectures and model compression; (2) Efficient
Training, which reduces computational burdens during model learning; and (3)
Efficient Data Collection, which addresses the bottlenecks in acquiring and
utilizing robotic data. Through a critical review of state-of-the-art methods
within this framework, this survey not only establishes a foundational
reference for the community but also summarizes representative applications,
delineates key challenges, and charts a roadmap for future research. We
maintain a continuously updated project page to track our latest developments:
https://evla-survey.github.io/