Una Encuesta sobre Modelos Eficientes de Visión-Lenguaje-Acción
A Survey on Efficient Vision-Language-Action Models
October 27, 2025
Autores: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) representan una frontera significativa en la inteligencia embodada, con el objetivo de tender un puente entre el conocimiento digital y la interacción con el mundo físico. Aunque estos modelos han demostrado capacidades generalistas notables, su despliegue se ve severamente obstaculizado por los sustanciales requisitos computacionales y de datos inherentes a sus modelos de base subyacentes a gran escala. Motivados por la necesidad urgente de abordar estos desafíos, este estudio presenta la primera revisión exhaustiva de los Modelos Eficientes de Visión-Lenguaje-Acción (VLA Eficientes) a lo largo de todo el proceso de datos-modelo-entrenamiento. Específicamente, introducimos una taxonomía unificada para organizar sistemáticamente los diversos esfuerzos en este dominio, categorizando las técnicas actuales en tres pilares fundamentales: (1) Diseño Eficiente de Modelos, centrado en arquitecturas eficientes y compresión de modelos; (2) Entrenamiento Eficiente, que reduce las cargas computacionales durante el aprendizaje del modelo; y (3) Recopilación Eficiente de Datos, que aborda los cuellos de botella en la adquisición y utilización de datos robóticos. Mediante una revisión crítica de los métodos más avanzados dentro de este marco, este estudio no solo establece una referencia fundamental para la comunidad, sino que también resume aplicaciones representativas, delinea desafíos clave y traza una hoja de ruta para la investigación futura. Mantenemos una página de proyecto actualizada continuamente para seguir nuestros últimos avances: https://evla-survey.github.io/
English
Vision-Language-Action models (VLAs) represent a significant frontier in
embodied intelligence, aiming to bridge digital knowledge with physical-world
interaction. While these models have demonstrated remarkable generalist
capabilities, their deployment is severely hampered by the substantial
computational and data requirements inherent to their underlying large-scale
foundation models. Motivated by the urgent need to address these challenges,
this survey presents the first comprehensive review of Efficient
Vision-Language-Action models (Efficient VLAs) across the entire
data-model-training process. Specifically, we introduce a unified taxonomy to
systematically organize the disparate efforts in this domain, categorizing
current techniques into three core pillars: (1) Efficient Model Design,
focusing on efficient architectures and model compression; (2) Efficient
Training, which reduces computational burdens during model learning; and (3)
Efficient Data Collection, which addresses the bottlenecks in acquiring and
utilizing robotic data. Through a critical review of state-of-the-art methods
within this framework, this survey not only establishes a foundational
reference for the community but also summarizes representative applications,
delineates key challenges, and charts a roadmap for future research. We
maintain a continuously updated project page to track our latest developments:
https://evla-survey.github.io/