Uno Studio sui Modelli Efficienti Visione-Linguaggio-Azione
A Survey on Efficient Vision-Language-Action Models
October 27, 2025
Autori: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
cs.AI
Abstract
I modelli Vision-Language-Action (VLA) rappresentano una frontiera significativa nell'intelligenza embodied, con l'obiettivo di colmare il divario tra la conoscenza digitale e l'interazione con il mondo fisico. Sebbene questi modelli abbiano dimostrato notevoli capacità generaliste, il loro dispiegamento è fortemente ostacolato dalle sostanziali esigenze computazionali e di dati intrinseche ai modelli fondazionali su larga scala che ne sono alla base. Motivati dall'urgente necessità di affrontare queste sfide, questa survey presenta la prima rassegna completa dei modelli Efficient Vision-Language-Action (Efficient VLA) lungo l'intero processo dati-modello-addestramento. Nello specifico, introduciamo una tassonomia unificata per organizzare sistematicamente i diversi sforzi in questo dominio, categorizzando le tecniche attuali in tre pilastri fondamentali: (1) Progetto Efficiente del Modello, incentrato su architetture efficienti e compressione del modello; (2) Addestramento Efficiente, che riduce i carichi computazionali durante l'apprendimento del modello; e (3) Raccolta Efficiente dei Dati, che affronta i colli di bottiglia nell'acquisizione e utilizzo dei dati robotici. Attraverso una revisione critica dei metodi allo stato dell'arte all'interno di questo quadro, questa survey non solo stabilisce un riferimento fondamentale per la comunità, ma riassume anche applicazioni rappresentative, delinea le sfide chiave e traccia una roadmap per la ricerca futura. Manteniamo una pagina progetto costantemente aggiornata per monitorare i nostri ultimi sviluppi: https://evla-survey.github.io/
English
Vision-Language-Action models (VLAs) represent a significant frontier in
embodied intelligence, aiming to bridge digital knowledge with physical-world
interaction. While these models have demonstrated remarkable generalist
capabilities, their deployment is severely hampered by the substantial
computational and data requirements inherent to their underlying large-scale
foundation models. Motivated by the urgent need to address these challenges,
this survey presents the first comprehensive review of Efficient
Vision-Language-Action models (Efficient VLAs) across the entire
data-model-training process. Specifically, we introduce a unified taxonomy to
systematically organize the disparate efforts in this domain, categorizing
current techniques into three core pillars: (1) Efficient Model Design,
focusing on efficient architectures and model compression; (2) Efficient
Training, which reduces computational burdens during model learning; and (3)
Efficient Data Collection, which addresses the bottlenecks in acquiring and
utilizing robotic data. Through a critical review of state-of-the-art methods
within this framework, this survey not only establishes a foundational
reference for the community but also summarizes representative applications,
delineates key challenges, and charts a roadmap for future research. We
maintain a continuously updated project page to track our latest developments:
https://evla-survey.github.io/