ChatPaper.aiChatPaper

Una Encuesta sobre Modelos Eficientes de Visión-Lenguaje-Acción

A Survey on Efficient Vision-Language-Action Models

October 27, 2025
Autores: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
cs.AI

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) representan una frontera significativa en la inteligencia embodada, con el objetivo de tender un puente entre el conocimiento digital y la interacción con el mundo físico. Aunque estos modelos han demostrado capacidades generalistas notables, su despliegue se ve severamente obstaculizado por los sustanciales requisitos computacionales y de datos inherentes a sus modelos de base subyacentes a gran escala. Motivados por la necesidad urgente de abordar estos desafíos, este estudio presenta la primera revisión exhaustiva de los Modelos Eficientes de Visión-Lenguaje-Acción (VLA Eficientes) a lo largo de todo el proceso de datos-modelo-entrenamiento. Específicamente, introducimos una taxonomía unificada para organizar sistemáticamente los diversos esfuerzos en este dominio, categorizando las técnicas actuales en tres pilares fundamentales: (1) Diseño Eficiente de Modelos, centrado en arquitecturas eficientes y compresión de modelos; (2) Entrenamiento Eficiente, que reduce las cargas computacionales durante el aprendizaje del modelo; y (3) Recopilación Eficiente de Datos, que aborda los cuellos de botella en la adquisición y utilización de datos robóticos. Mediante una revisión crítica de los métodos más avanzados dentro de este marco, este estudio no solo establece una referencia fundamental para la comunidad, sino que también resume aplicaciones representativas, delinea desafíos clave y traza una hoja de ruta para la investigación futura. Mantenemos una página de proyecto actualizada continuamente para seguir nuestros últimos avances: https://evla-survey.github.io/
English
Vision-Language-Action models (VLAs) represent a significant frontier in embodied intelligence, aiming to bridge digital knowledge with physical-world interaction. While these models have demonstrated remarkable generalist capabilities, their deployment is severely hampered by the substantial computational and data requirements inherent to their underlying large-scale foundation models. Motivated by the urgent need to address these challenges, this survey presents the first comprehensive review of Efficient Vision-Language-Action models (Efficient VLAs) across the entire data-model-training process. Specifically, we introduce a unified taxonomy to systematically organize the disparate efforts in this domain, categorizing current techniques into three core pillars: (1) Efficient Model Design, focusing on efficient architectures and model compression; (2) Efficient Training, which reduces computational burdens during model learning; and (3) Efficient Data Collection, which addresses the bottlenecks in acquiring and utilizing robotic data. Through a critical review of state-of-the-art methods within this framework, this survey not only establishes a foundational reference for the community but also summarizes representative applications, delineates key challenges, and charts a roadmap for future research. We maintain a continuously updated project page to track our latest developments: https://evla-survey.github.io/
PDF52December 2, 2025