GeneralVLA: 知識誘導型軌道計画による一般化可能な視覚言語行動モデル
GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning
February 4, 2026
著者: Guoqing Ma, Siheng Wang, Zeyu Zhang, Shan Yu, Hao Tang
cs.AI
要旨
大規模基盤モデルは、視覚と言語の複雑な問題に対する強力なオープンワールド汎化能力を示しているが、ロボティクスにおいて同レベルの汎化は未達成である。根本的な課題の一つは、モデルのゼロショット能力が限定的であり、未経験のシナリオへの効果的な汎化を妨げている点にある。本研究では、GeneralVLA(知識誘導軌道計画による汎用視覚言語行動モデル)を提案する。これは、階層型視覚言語行動モデルであり、基盤モデルの汎化能力をより効果的に利用して、ゼロショット操作を可能にし、ロボティクス向けデータを自動生成する。具体的には、高層のASM(アフォーダンス分割モジュール)がシーンの画像キーポイントアフォーダンスを認識するようファインチューニングされ、中層の3DAgentがタスク理解、技能知識、軌道計画を実行して所望のロボットエンドエフェクタ軌道を示す3D経路を生成する、階層型VLAモデルのクラスを検討する。この中間的な3D経路予測は、精密操作が可能な低層の3D認識制御ポリシーへのガイダンスとして機能する。従来手法と比較して、本手法は実世界のロボットデータ収集や人間による実演を一切必要とせず、多様なタスクと視点に対してはるかにスケーラブルである。実験では、GeneralVLAが14のタスクに対して軌道の生成に成功し、VoxPoserなどの最先端手法を大幅に上回る性能を示した。生成された実演データは、人間の実演やVoxPoser、Scaling-up、Code-As-Policiesによって生成されたデータで学習する場合よりも、よりロバストな行動模倣ポリシーの訓練に利用できる。我々は、GeneralVLAがロボティクス向けデータ生成とゼロショット設定での新規タスク解決の両方に対するスケーラブルな手法となり得ると確信している。コード: https://github.com/AIGeeksGroup/GeneralVLA. ウェブサイト: https://aigeeksgroup.github.io/GeneralVLA.
English
Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is that the models exhibit limited zero-shot capability, which hampers their ability to generalize effectively to unseen scenarios. In this work, we propose GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), a hierarchical vision-language-action (VLA) model that can be more effective in utilizing the generalization of foundation models, enabling zero-shot manipulation and automatically generating data for robotics. In particular, we study a class of hierarchical VLA model where the high-level ASM (Affordance Segmentation Module) is finetuned to perceive image keypoint affordances of the scene; the mid-level 3DAgent carries out task understanding, skill knowledge, and trajectory planning to produce a 3D path indicating the desired robot end-effector trajectory. The intermediate 3D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Compared to alternative approaches, our method requires no real-world robotic data collection or human demonstration, making it much more scalable to diverse tasks and viewpoints. Empirically, GeneralVLA successfully generates trajectories for 14 tasks, significantly outperforming state-of-the-art methods such as VoxPoser. The generated demonstrations can train more robust behavior cloning policies than training with human demonstrations or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe GeneralVLA can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.