10 Desafios Abertos que Direcionam o Futuro dos Modelos Visão-Linguagem-Ação

Resumo

Devido à sua capacidade de seguir instruções em linguagem natural, os modelos visão-linguagem-ação (VLA) são cada vez mais prevalentes no cenário de IA incorporada, seguindo o sucesso generalizado de seus precursores — LLMs e VLMs. Neste artigo, discutimos 10 marcos principais no desenvolvimento contínuo dos modelos VLA: multimodalidade, raciocínio, dados, avaliação, generalização de ações entre robôs, eficiência, coordenação corporal total, segurança, agentes e coordenação com humanos. Além disso, discutimos as tendências emergentes de uso de compreensão espacial, modelagem da dinâmica do mundo, pós-treinamento e síntese de dados — todas com o objetivo de alcançar esses marcos. Por meio dessas discussões, esperamos direcionar a atenção para as vias de pesquisa que podem acelerar o desenvolvimento dos modelos VLA rumo a uma aceitação mais ampla.

English

Due to their ability of follow natural language instructions, vision-language-action (VLA) models are increasingly prevalent in the embodied AI arena, following the widespread success of their precursors -- LLMs and VLMs. In this paper, we discuss 10 principal milestones in the ongoing development of VLA models -- multimodality, reasoning, data, evaluation, cross-robot action generalization, efficiency, whole-body coordination, safety, agents, and coordination with humans. Furthermore, we discuss the emerging trends of using spatial understanding, modeling world dynamics, post training, and data synthesis -- all aiming to reach these milestones. Through these discussions, we hope to bring attention to the research avenues that may accelerate the development of VLA models into wider acceptability.

10 Desafios Abertos que Direcionam o Futuro dos Modelos Visão-Linguagem-Ação

10 Open Challenges Steering the Future of Vision-Language-Action Models

Resumo

Support