효율적인 비전-언어-행동 모델에 관한 연구
A Survey on Efficient Vision-Language-Action Models
October 27, 2025
저자: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
cs.AI
초록
비전-언어-행동 모델(VLAs)은 디지털 지식과 물리적 세계 상호작용의 간극을 메우는 것을 목표로 하는 구현형 인공지능의 중요한 전선을 대표합니다. 이러한 모델은 놀라운 일반화 능력을 입증했으나, 그 기반이 되는 대규모 파운데이션 모델의 본질적인 방대한 계산 및 데이터 요구사항으로 인해 실제 배포가 심각하게 제한되고 있습니다. 이러한 과제 해결의 시급한 필요성에 동기를 부여받아, 본 설문 연구는 데이터-모델-훈련 전 과정에 걸친 효율적 비전-언어-행동 모델(Efficient VLAs)에 대한 최초의 포괄적인 검토를 제시합니다. 구체적으로, 본 연구는 이 분야의 다양한 연구 노력을 체계적으로 정리하기 위한 통합 분류 체계를 도입하며, 현재 기술을 (1) 효율적인 아키텍처와 모델 압축에 초점을 맞춘 효율적 모델 설계, (2) 모델 학습 과정의 계산 부담을 줄이는 효율적 훈련, (3) 로봇 데이터 확보 및 활용의 병목 현상을 해결하는 효율적 데이터 수집이라는 세 가지 핵심 기둥으로 분류합니다. 이 프레임워크 내에서 최첨단 방법들에 대한 비판적 검토를 통해, 본 설문 연구는 커뮤니티를 위한 기초 참고 자료를 마련할 뿐만 아니라 대표적인 응용 사례를 요약하고, 주요 과제를 delineate하며, 향후 연구를 위한 로드맵을 제시합니다. 최신 개발 동향을 추적하기 위해 지속적으로 업데이트되는 프로젝트 페이지를 유지합니다: https://evla-survey.github.io/
English
Vision-Language-Action models (VLAs) represent a significant frontier in
embodied intelligence, aiming to bridge digital knowledge with physical-world
interaction. While these models have demonstrated remarkable generalist
capabilities, their deployment is severely hampered by the substantial
computational and data requirements inherent to their underlying large-scale
foundation models. Motivated by the urgent need to address these challenges,
this survey presents the first comprehensive review of Efficient
Vision-Language-Action models (Efficient VLAs) across the entire
data-model-training process. Specifically, we introduce a unified taxonomy to
systematically organize the disparate efforts in this domain, categorizing
current techniques into three core pillars: (1) Efficient Model Design,
focusing on efficient architectures and model compression; (2) Efficient
Training, which reduces computational burdens during model learning; and (3)
Efficient Data Collection, which addresses the bottlenecks in acquiring and
utilizing robotic data. Through a critical review of state-of-the-art methods
within this framework, this survey not only establishes a foundational
reference for the community but also summarizes representative applications,
delineates key challenges, and charts a roadmap for future research. We
maintain a continuously updated project page to track our latest developments:
https://evla-survey.github.io/