Uma Pesquisa sobre Modelos Eficientes de Visão-Linguagem-Ação
A Survey on Efficient Vision-Language-Action Models
October 27, 2025
Autores: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
cs.AI
Resumo
Os modelos Visão-Linguagem-Ação (VLAs) representam uma fronteira significativa na inteligência incorporada, visando unir o conhecimento digital com a interação no mundo físico. Embora esses modelos tenham demonstrado capacidades generalistas notáveis, sua implantação é severamente dificultada pelos substanciais requisitos computacionais e de dados inerentes aos seus modelos de base de grande escala subjacentes. Motivados pela necessidade urgente de enfrentar esses desafios, este levantamento apresenta a primeira revisão abrangente dos modelos Eficientes de Visão-Linguagem-Ação (Efficient VLAs) em todo o processo dados-modelo-treinamento. Especificamente, introduzimos uma taxonomia unificada para organizar sistematicamente os esforços díspares neste domínio, categorizando as técnicas atuais em três pilares centrais: (1) Design Eficiente de Modelos, com foco em arquiteturas eficientes e compressão de modelos; (2) Treinamento Eficiente, que reduz os encargos computacionais durante a aprendizagem do modelo; e (3) Coleta Eficiente de Dados, que aborda os gargalos na aquisição e utilização de dados robóticos. Através de uma revisão crítica dos métodos state-of-the-art dentro desta estrutura, este levantamento não apenas estabelece uma referência fundamental para a comunidade, mas também resume aplicações representativas, delineia desafios-chave e traça um roteiro para pesquisas futuras. Mantemos uma página do projeto continuamente atualizada para acompanhar nossos últimos desenvolvimentos: https://evla-survey.github.io/
English
Vision-Language-Action models (VLAs) represent a significant frontier in
embodied intelligence, aiming to bridge digital knowledge with physical-world
interaction. While these models have demonstrated remarkable generalist
capabilities, their deployment is severely hampered by the substantial
computational and data requirements inherent to their underlying large-scale
foundation models. Motivated by the urgent need to address these challenges,
this survey presents the first comprehensive review of Efficient
Vision-Language-Action models (Efficient VLAs) across the entire
data-model-training process. Specifically, we introduce a unified taxonomy to
systematically organize the disparate efforts in this domain, categorizing
current techniques into three core pillars: (1) Efficient Model Design,
focusing on efficient architectures and model compression; (2) Efficient
Training, which reduces computational burdens during model learning; and (3)
Efficient Data Collection, which addresses the bottlenecks in acquiring and
utilizing robotic data. Through a critical review of state-of-the-art methods
within this framework, this survey not only establishes a foundational
reference for the community but also summarizes representative applications,
delineates key challenges, and charts a roadmap for future research. We
maintain a continuously updated project page to track our latest developments:
https://evla-survey.github.io/