ChatPaper.aiChatPaper

Anatomia dei Modelli Visione-Linguaggio-Azione: Dai Moduli alle Pietre Miliari e alle Sfide

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

December 12, 2025
Autori: Chao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng
cs.AI

Abstract

I modelli Vision-Language-Action (VLA) stanno guidando una rivoluzione nella robotica, consentendo alle macchine di comprendere le istruzioni e interagire con il mondo fisico. Questo campo sta esplodendo con nuovi modelli e dataset, rendendo sia entusiasmante che impegnativo stare al passo. Questa survey offre una guida chiara e strutturata del panorama VLA. La progettiamo per seguire il percorso di apprendimento naturale di un ricercatore: iniziamo con i Moduli di base di qualsiasi modello VLA, ripercorriamo la storia attraverso le Pietre Miliari chiave e quindi approfondiamo le Sfide fondamentali che definiscono le recenti frontiere della ricerca. Il nostro contributo principale è una scomposizione dettagliata delle cinque maggiori sfide in: (1) Rappresentazione, (2) Esecuzione, (3) Generalizzazione, (4) Sicurezza e (5) Dataset e Valutazione. Questa struttura riflette il percorso di sviluppo di un agente generalista: stabilire il ciclo fondamentale percezione-azione, scalare le capacità attraverso diverse embodiment e ambienti, e infine garantire un dispiegamento affidabile, il tutto supportato dall'essenziale infrastruttura dati. Per ciascuna di esse, esaminiamo gli approcci esistenti ed evidenziamo le opportunità future. Posizioniamo questo articolo sia come guida fondamentale per i nuovi arrivati che come roadmap strategica per i ricercatori esperti, con il duplice obiettivo di accelerare l'apprendimento e ispirare nuove idee nell'intelligenza embodied. Una versione live di questa survey, con aggiornamenti continui, è mantenuta sulla nostra {pagina del progetto} https://suyuz1.github.io/Survery/.
English
Vision-Language-Action (VLA) models are driving a revolution in robotics, enabling machines to understand instructions and interact with the physical world. This field is exploding with new models and datasets, making it both exciting and challenging to keep pace with. This survey offers a clear and structured guide to the VLA landscape. We design it to follow the natural learning path of a researcher: we start with the basic Modules of any VLA model, trace the history through key Milestones, and then dive deep into the core Challenges that define recent research frontier. Our main contribution is a detailed breakdown of the five biggest challenges in: (1) Representation, (2) Execution, (3) Generalization, (4) Safety, and (5) Dataset and Evaluation. This structure mirrors the developmental roadmap of a generalist agent: establishing the fundamental perception-action loop, scaling capabilities across diverse embodiments and environments, and finally ensuring trustworthy deployment-all supported by the essential data infrastructure. For each of them, we review existing approaches and highlight future opportunities. We position this paper as both a foundational guide for newcomers and a strategic roadmap for experienced researchers, with the dual aim of accelerating learning and inspiring new ideas in embodied intelligence. A live version of this survey, with continuous updates, is maintained on our https://suyuz1.github.io/Survery/{project page}.
PDF131December 23, 2025