10 Défis Ouverts Orientant l'Avenir des Modèles Vision-Langage-Action

Résumé

En raison de leur capacité à suivre des instructions en langage naturel, les modèles vision-langage-action (VLA) deviennent de plus en plus répandus dans le domaine de l'IA incarnée, suite au succès généralisé de leurs précurseurs – les modèles de langage de grande taille (LLM) et les modèles vision-langage (VLM). Dans cet article, nous abordons dix étapes majeures du développement continu des modèles VLA : la multimodalité, le raisonnement, les données, l'évaluation, la généralisation des actions inter-robots, l'efficacité, la coordination corporelle globale, la sécurité, les agents et la coordination avec les humains. De plus, nous examinons les tendances émergentes telles que l'utilisation de la compréhension spatiale, la modélisation des dynamiques du monde, l'après-entraînement et la synthèse de données – toutes visant à atteindre ces jalons. À travers ces discussions, nous espérons attirer l'attention sur les pistes de recherche susceptibles d'accélérer le développement des modèles VLA vers une acceptabilité plus large.

English

Due to their ability of follow natural language instructions, vision-language-action (VLA) models are increasingly prevalent in the embodied AI arena, following the widespread success of their precursors -- LLMs and VLMs. In this paper, we discuss 10 principal milestones in the ongoing development of VLA models -- multimodality, reasoning, data, evaluation, cross-robot action generalization, efficiency, whole-body coordination, safety, agents, and coordination with humans. Furthermore, we discuss the emerging trends of using spatial understanding, modeling world dynamics, post training, and data synthesis -- all aiming to reach these milestones. Through these discussions, we hope to bring attention to the research avenues that may accelerate the development of VLA models into wider acceptability.