ChatPaper.aiChatPaper

GeneralVLA: Generalisierbare Vision-Sprache-Handlungs-Modelle mit wissensbasierter Trajektorienplanung

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

February 4, 2026
papers.authors: Guoqing Ma, Siheng Wang, Zeyu Zhang, Shan Yu, Hao Tang
cs.AI

papers.abstract

Große Foundation-Modelle haben eine starke Open-World-Generalisierung für komplexe Probleme in Vision und Sprache gezeigt, ein ähnliches Maß an Generalisierung wurde jedoch in der Robotik noch nicht erreicht. Eine grundlegende Herausforderung besteht darin, dass die Modelle nur begrenzte Zero-Shot-Fähigkeiten aufweisen, was ihre Fähigkeit beeinträchtigt, effektiv auf ungesehene Szenarien zu generalisieren. In dieser Arbeit schlagen wir GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning) vor, ein hierarchisches Vision-Language-Action (VLA)-Modell, das die Generalisierung von Foundation-Modellen effektiver nutzen kann, Zero-Shot-Manipulation ermöglicht und automatisch Daten für die Robotik generiert. Insbesondere untersuchen wir eine Klasse hierarchischer VLA-Modelle, bei denen das hochrangige ASM (Affordance Segmentation Module) feinabgestimmt wird, um Affordanzen von Bildmerkmalen in der Szene zu erfassen; der mittlere 3DAgent führt Aufgabenverständnis, Skillwissen und Trajektorienplanung durch, um einen 3D-Pfad zu erzeugen, der die gewünschte Endeffektor-Trajektorie des Roboters angibt. Die Zwischenvorhersage des 3D-Pfads dient dann als Führung für die niedrigere, 3D-bewusste Steuerungsstrategie, die präzise Manipulation ermöglicht. Im Vergleich zu alternativen Ansätzen erfordert unsere Methode keine Datenerfassung mit echten Robotern oder menschliche Demonstrationen, was sie deutlich skalierbarer für verschiedene Aufgaben und Blickwinkel macht. Empirisch generiert GeneralVLA erfolgreich Trajektorien für 14 Aufgaben und übertrifft dabei state-of-the-art Methoden wie VoxPoser signifikant. Die generierten Demonstrationen können robustere Behavior-Cloning-Strategien trainieren als das Training mit menschlichen Demonstrationen oder mit Daten von VoxPoser, Scaling-up und Code-As-Policies. Wir glauben, dass GeneralVLA die skalierbare Methode sein kann, um sowohl Daten für die Robotik zu generieren als auch neue Aufgaben in einer Zero-Shot-Umgebung zu lösen. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.
English
Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is that the models exhibit limited zero-shot capability, which hampers their ability to generalize effectively to unseen scenarios. In this work, we propose GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), a hierarchical vision-language-action (VLA) model that can be more effective in utilizing the generalization of foundation models, enabling zero-shot manipulation and automatically generating data for robotics. In particular, we study a class of hierarchical VLA model where the high-level ASM (Affordance Segmentation Module) is finetuned to perceive image keypoint affordances of the scene; the mid-level 3DAgent carries out task understanding, skill knowledge, and trajectory planning to produce a 3D path indicating the desired robot end-effector trajectory. The intermediate 3D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Compared to alternative approaches, our method requires no real-world robotic data collection or human demonstration, making it much more scalable to diverse tasks and viewpoints. Empirically, GeneralVLA successfully generates trajectories for 14 tasks, significantly outperforming state-of-the-art methods such as VoxPoser. The generated demonstrations can train more robust behavior cloning policies than training with human demonstrations or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe GeneralVLA can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.
PDF12February 17, 2026