Uma Anatomia dos Modelos Visão-Linguagem-Ação: Dos Módulos aos Marcos e Desafios

Resumo

Os modelos Visão-Linguagem-Ação (VLA) estão a impulsionar uma revolução na robótica, permitindo que as máquinas compreendam instruções e interajam com o mundo físico. Esta área está a explodir com novos modelos e conjuntos de dados, tornando-se simultaneamente emocionante e desafiador acompanhar o seu ritmo. Esta pesquisa oferece um guia claro e estruturado para o panorama dos VLA. Concebemo-lo para seguir o percurso de aprendizagem natural de um investigador: começamos com os Módulos básicos de qualquer modelo VLA, percorremos a história através dos Marcos-chave e, em seguida, aprofundamo-nos nos principais Desafios que definem a fronteira recente da investigação. A nossa principal contribuição é uma análise detalhada dos cinco maiores desafios em: (1) Representação, (2) Execução, (3) Generalização, (4) Segurança e (5) Conjuntos de Dados e Avaliação. Esta estrutura espelha o roteiro de desenvolvimento de um agente generalista: estabelecer o ciclo fundamental de perceção-ação, dimensionar capacidades através de diversas incorporações e ambientes e, finalmente, garantir uma implantação confiável — tudo suportado pela infraestrutura de dados essencial. Para cada um deles, analisamos as abordagens existentes e destacamos oportunidades futuras. Posicionamos este artigo tanto como um guia fundamental para recém-chegados como um roteiro estratégico para investigadores experientes, com o duplo objetivo de acelerar a aprendizagem e inspirar novas ideias em inteligência incorporada. Uma versão dinâmica desta pesquisa, com atualizações contínuas, é mantida na nossa {página do projeto} https://suyuz1.github.io/Survery/.

English

Vision-Language-Action (VLA) models are driving a revolution in robotics, enabling machines to understand instructions and interact with the physical world. This field is exploding with new models and datasets, making it both exciting and challenging to keep pace with. This survey offers a clear and structured guide to the VLA landscape. We design it to follow the natural learning path of a researcher: we start with the basic Modules of any VLA model, trace the history through key Milestones, and then dive deep into the core Challenges that define recent research frontier. Our main contribution is a detailed breakdown of the five biggest challenges in: (1) Representation, (2) Execution, (3) Generalization, (4) Safety, and (5) Dataset and Evaluation. This structure mirrors the developmental roadmap of a generalist agent: establishing the fundamental perception-action loop, scaling capabilities across diverse embodiments and environments, and finally ensuring trustworthy deployment-all supported by the essential data infrastructure. For each of them, we review existing approaches and highlight future opportunities. We position this paper as both a foundational guide for newcomers and a strategic roadmap for experienced researchers, with the dual aim of accelerating learning and inspiring new ideas in embodied intelligence. A live version of this survey, with continuous updates, is maintained on our https://suyuz1.github.io/Survery/{project page}.

Uma Anatomia dos Modelos Visão-Linguagem-Ação: Dos Módulos aos Marcos e Desafios

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

Resumo

Support