GeneralVLA: 지식 기반 경로 계획을 갖춘 일반화 가능한 시각-언어-행동 모델
GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning
February 4, 2026
저자: Guoqing Ma, Siheng Wang, Zeyu Zhang, Shan Yu, Hao Tang
cs.AI
초록
대규모 파운데이션 모델은 비전 및 언어 분야에서 복잡한 문제에 대한 강력한 오픈월드 일반화 능력을 보여왔으나, 로봇공학 분야에서는 유사한 수준의 일반화가 아직 달성되지 못했습니다. 근본적인 과제 중 하나는 이러한 모델이 제로샷 능력이 제한되어 보이지 않은 시나리오에 효과적으로 일반화하는 능력을 저해한다는 점입니다. 본 연구에서는 파운데이션 모델의 일반화를 더 효과적으로 활용하여 제로샷 조작이 가능하고 로봇공학을 위한 데이터를 자동으로 생성할 수 있는 계층적 비전-언어-행동(VLA) 모델인 GeneralVLA(지식 기반 궤적 계획을 통한 일반화 가능 VLA 모델)를 제안합니다. 구체적으로, 우리는 고수준의 어포던스 분할 모듈(ASM)이 장면의 이미지 키포인트 어포던스를 인지하도록 미세 조정되고, 중간 수준의 3D 에이전트가 작업 이해, 기술 지식, 궤적 계획을 수행하여 원하는 로봇 엔드 이펙터 궤적을 나타내는 3D 경로를 생성하는 계층적 VLA 모델 클래스를 연구합니다. 이렇게 예측된 중간 3D 경로는 정밀 조작이 가능한 저수준의 3D 인식 제어 정책에 대한 지침으로 활용됩니다. 대안적 접근법과 비교하여, 우리의 방법은 실제 로봇 데이터 수집이나 인간 데모가 필요하지 않아 다양한 작업과 시점에 훨씬 더 확장 가능합니다. 실험적으로 GeneralVLA는 14개 작업에 대한 궤적 생성을 성공적으로 수행하며, VoxPoser와 같은 최첨단 방법을 크게 능가합니다. 생성된 데모는 인간 데모나 VoxPoser, Scaling-up, Code-As-Policies에 의해 생성된 데이터로 학습하는 것보다 더 강력한 행동 복제 정책을 학습시키는 데 사용될 수 있습니다. 우리는 GeneralVLA가 로봇공학을 위한 데이터 생성과 제로샷 환경에서 새로운 작업 해결을 위한 확장 가능한 방법이 될 수 있다고 믿습니다. 코드: https://github.com/AIGeeksGroup/GeneralVLA. 웹사이트: https://aigeeksgroup.github.io/GeneralVLA.
English
Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is that the models exhibit limited zero-shot capability, which hampers their ability to generalize effectively to unseen scenarios. In this work, we propose GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), a hierarchical vision-language-action (VLA) model that can be more effective in utilizing the generalization of foundation models, enabling zero-shot manipulation and automatically generating data for robotics. In particular, we study a class of hierarchical VLA model where the high-level ASM (Affordance Segmentation Module) is finetuned to perceive image keypoint affordances of the scene; the mid-level 3DAgent carries out task understanding, skill knowledge, and trajectory planning to produce a 3D path indicating the desired robot end-effector trajectory. The intermediate 3D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Compared to alternative approaches, our method requires no real-world robotic data collection or human demonstration, making it much more scalable to diverse tasks and viewpoints. Empirically, GeneralVLA successfully generates trajectories for 14 tasks, significantly outperforming state-of-the-art methods such as VoxPoser. The generated demonstrations can train more robust behavior cloning policies than training with human demonstrations or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe GeneralVLA can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.