10 offene Herausforderungen, die die Zukunft von Vision-Sprache-Handlung-Modellen lenken

Zusammenfassung

Aufgrund ihrer Fähigkeit, natürliche Sprachbefehle zu befolgen, gewinnen Vision-Language-Action (VLA)-Modelle im Bereich der embodied AI zunehmend an Bedeutung, nachdem ihre Vorläufer – LLMs und VLMs – bereits weitreichende Erfolge erzielt haben. In diesem Beitrag diskutieren wir zehn wesentliche Meilensteine in der laufenden Entwicklung von VLA-Modellen: Multimodalität, logisches Schließen, Daten, Evaluation, generalisierte Handlungsausführung über verschiedene Roboter hinweg, Effizienz, Ganzkörperkoordination, Sicherheit, Agenten und Koordination mit Menschen. Darüber hinaus erörtern wir die aufkommenden Trends der Nutzung von räumlichem Verständnis, der Modellierung von Weltdynamiken, des Post-Trainings und der Datensynthese – allesamt mit dem Ziel, diese Meilensteine zu erreichen. Durch diese Diskussionen hoffen wir, die Aufmerksamkeit auf Forschungsrichtungen zu lenken, die die Entwicklung von VLA-Modellen hin zu einer breiteren Akzeptanz beschleunigen könnten.

English

Due to their ability of follow natural language instructions, vision-language-action (VLA) models are increasingly prevalent in the embodied AI arena, following the widespread success of their precursors -- LLMs and VLMs. In this paper, we discuss 10 principal milestones in the ongoing development of VLA models -- multimodality, reasoning, data, evaluation, cross-robot action generalization, efficiency, whole-body coordination, safety, agents, and coordination with humans. Furthermore, we discuss the emerging trends of using spatial understanding, modeling world dynamics, post training, and data synthesis -- all aiming to reach these milestones. Through these discussions, we hope to bring attention to the research avenues that may accelerate the development of VLA models into wider acceptability.