10 Sfide Aperte che Guidano il Futuro dei Modelli Visione-Linguaggio-Azione

Abstract

Grazie alla loro capacità di seguire istruzioni in linguaggio naturale, i modelli visione-linguaggio-azione (VLA) stanno diventando sempre più diffusi nell’ambito dell’IA incarnata, seguendo il successo su larga scala dei loro precursori — i modelli linguistici di grandi dimensioni (LLM) e i modelli visione-linguaggio (VLM). In questo articolo, discutiamo 10 traguardi principali nello sviluppo in corso dei modelli VLA: multimodalità, ragionamento, dati, valutazione, generalizzazione delle azioni tra robot diversi, efficienza, coordinamento corporeo totale, sicurezza, agenti e coordinamento con gli esseri umani. Inoltre, discutiamo le tendenze emergenti dell'uso della comprensione spaziale, della modellizzazione delle dinamiche del mondo, del post-addestramento e della sintesi dei dati — tutti finalizzati al raggiungimento di questi traguardi. Attraverso queste discussioni, speriamo di richiamare l'attenzione sulle direzioni di ricerca che potrebbero accelerare lo sviluppo dei modelli VLA verso una più ampia accettabilità.

English

Due to their ability of follow natural language instructions, vision-language-action (VLA) models are increasingly prevalent in the embodied AI arena, following the widespread success of their precursors -- LLMs and VLMs. In this paper, we discuss 10 principal milestones in the ongoing development of VLA models -- multimodality, reasoning, data, evaluation, cross-robot action generalization, efficiency, whole-body coordination, safety, agents, and coordination with humans. Furthermore, we discuss the emerging trends of using spatial understanding, modeling world dynamics, post training, and data synthesis -- all aiming to reach these milestones. Through these discussions, we hope to bring attention to the research avenues that may accelerate the development of VLA models into wider acceptability.

10 Sfide Aperte che Guidano il Futuro dei Modelli Visione-Linguaggio-Azione

10 Open Challenges Steering the Future of Vision-Language-Action Models

Abstract

Support