Обзор эффективных моделей «зрение–язык–действие»
A Survey on Efficient Vision-Language-Action Models
October 27, 2025
Авторы: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
cs.AI
Аннотация
Модели «Vision-Language-Action» (VLA) представляют собой важный рубеж в развитии воплощенного интеллекта, целью которого является соединение цифровых знаний с взаимодействием в физическом мире. Несмотря на то, что эти модели продемонстрировали впечатляющие универсальные способности, их практическое применение серьезно ограничивается значительными вычислительными и данными требованиями, присущими лежащим в их основе крупномасштабным фундаментальным моделям. Мотивированные настоятельной необходимостью решения этих проблем, мы представляем первое всестороннее обозрение эффективных моделей «Vision-Language-Action» (Efficient VLA), охватывающее весь процесс работы с данными, моделью и обучением. В частности, мы вводим унифицированную таксономию для систематизации разнородных исследований в этой области, классифицируя современные методы по трем основным направлениям: (1) Эффективное проектирование моделей, фокусирующееся на эффективных архитектурах и сжатии моделей; (2) Эффективное обучение, которое снижает вычислительную нагрузку в процессе обучения модели; и (3) Эффективный сбор данных, который решает проблемы, связанные с получением и использованием робототехнических данных. Благодаря критическому анализу современных методов в рамках данной структуры, это обозрение не только создает фундаментальный ориентир для научного сообщества, но также обобщает репрезентативные приложения, определяет ключевые challenges и намечает roadmap для будущих исследований. Мы поддерживаем постоянно обновляемую страницу проекта для отслеживания наших последних разработок: https://evla-survey.github.io/
English
Vision-Language-Action models (VLAs) represent a significant frontier in
embodied intelligence, aiming to bridge digital knowledge with physical-world
interaction. While these models have demonstrated remarkable generalist
capabilities, their deployment is severely hampered by the substantial
computational and data requirements inherent to their underlying large-scale
foundation models. Motivated by the urgent need to address these challenges,
this survey presents the first comprehensive review of Efficient
Vision-Language-Action models (Efficient VLAs) across the entire
data-model-training process. Specifically, we introduce a unified taxonomy to
systematically organize the disparate efforts in this domain, categorizing
current techniques into three core pillars: (1) Efficient Model Design,
focusing on efficient architectures and model compression; (2) Efficient
Training, which reduces computational burdens during model learning; and (3)
Efficient Data Collection, which addresses the bottlenecks in acquiring and
utilizing robotic data. Through a critical review of state-of-the-art methods
within this framework, this survey not only establishes a foundational
reference for the community but also summarizes representative applications,
delineates key challenges, and charts a roadmap for future research. We
maintain a continuously updated project page to track our latest developments:
https://evla-survey.github.io/