GeneralVLA: Modelos Visão-Linguagem-Ação Generalizáveis com Planejamento de Trajetória Guiado por Conhecimento

Resumo

Os grandes modelos de fundação têm demonstrado forte generalização em mundo aberto para problemas complexos em visão e linguagem, mas níveis similares de generalização ainda não foram alcançados em robótica. Um desafio fundamental é que os modelos exibem capacidade limitada de zero-shot, o que dificulta sua habilidade de generalizar efetivamente para cenários não vistos. Neste trabalho, propomos o GeneralVLA (Modelos Generalizáveis de Visão-Linguagem-Ação com Planejamento de Trajetória Guiado por Conhecimento), um modelo hierárquico de visão-linguagem-ação (VLA) que pode ser mais eficaz na utilização da generalização dos modelos de fundação, permitindo manipulação zero-shot e geração automática de dados para robótica. Especificamente, estudamos uma classe de modelo VLA hierárquico onde o módulo de alto nível ASM (Módulo de Segmentação de Afordabilidade) é ajustado para perceber afordabilidades de pontos-chave da imagem da cena; o agente de nível médio 3DAgent realiza compreensão de tarefas, conhecimento de habilidades e planejamento de trajetória para produzir um caminho 3D que indica a trajetória desejada do efetuador final do robô. A previsão do caminho 3D intermediário serve então como orientação para a política de controle de baixo nível, consciente do 3D, capaz de manipulação precisa. Em comparação com abordagens alternativas, nosso método não requer coleta de dados robóticos do mundo real ou demonstração humana, tornando-o muito mais escalável para tarefas e pontos de vista diversos. Empiricamente, o GeneralVLA gera trajetórias com sucesso para 14 tarefas, superando significativamente métodos state-of-the-art como o VoxPoser. As demonstrações geradas podem treinar políticas de clonagem de comportamento mais robustas do que o treinamento com demonstrações humanas ou com dados gerados por VoxPoser, Scaling-up e Code-As-Policies. Acreditamos que o GeneralVLA pode ser o método escalável tanto para gerar dados para robótica quanto para resolver novas tarefas em um cenário zero-shot. Código: https://github.com/AIGeeksGroup/GeneralVLA. Site: https://aigeeksgroup.github.io/GeneralVLA.

English

Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is that the models exhibit limited zero-shot capability, which hampers their ability to generalize effectively to unseen scenarios. In this work, we propose GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), a hierarchical vision-language-action (VLA) model that can be more effective in utilizing the generalization of foundation models, enabling zero-shot manipulation and automatically generating data for robotics. In particular, we study a class of hierarchical VLA model where the high-level ASM (Affordance Segmentation Module) is finetuned to perceive image keypoint affordances of the scene; the mid-level 3DAgent carries out task understanding, skill knowledge, and trajectory planning to produce a 3D path indicating the desired robot end-effector trajectory. The intermediate 3D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Compared to alternative approaches, our method requires no real-world robotic data collection or human demonstration, making it much more scalable to diverse tasks and viewpoints. Empirically, GeneralVLA successfully generates trajectories for 14 tasks, significantly outperforming state-of-the-art methods such as VoxPoser. The generated demonstrations can train more robust behavior cloning policies than training with human demonstrations or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe GeneralVLA can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.

GeneralVLA: Modelos Visão-Linguagem-Ação Generalizáveis com Planejamento de Trajetória Guiado por Conhecimento

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Resumo

Support