ChatPaper.aiChatPaper

GeneralVLA : Modèles vision-langage-action généralisables avec planification de trajectoire guidée par les connaissances

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

February 4, 2026
papers.authors: Guoqing Ma, Siheng Wang, Zeyu Zhang, Shan Yu, Hao Tang
cs.AI

papers.abstract

Les grands modèles de fondation ont démontré une forte capacité de généralisation en monde ouvert pour résoudre des problèmes complexes en vision et langage, mais un niveau similaire de généralisation n'a pas encore été atteint en robotique. Un défi fondamental est que ces modèles présentent des capacités limitées en zero-shot, ce qui entrave leur aptitude à généraliser efficacement à des scénarios non vus. Dans ce travail, nous proposons GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), un modèle hiérarchique vision-langage-action (VLA) qui permet une utilisation plus efficace de la généralisation des modèles de fondation, en permettant une manipulation zero-shot et une génération automatique de données pour la robotique. Plus précisément, nous étudions une classe de modèle VLA hiérarchique où le module de haut niveau ASM (Affordance Segmentation Module) est fine-tuné pour percevoir les affordances par points-clés dans l'image de la scène ; l'agent 3D de niveau intermédiaire réalise la compréhension de la tâche, l'acquisition des connaissances sur les compétences et la planification de trajectoire pour produire un chemin 3D indiquant la trajectoire souhaitée de l'effecteur robotique. La prédiction du chemin 3D intermédiaire sert ensuite de guide à la politique de contrôle de bas niveau, consciente de la 3D, capable d'une manipulation précise. Par rapport aux approches alternatives, notre méthode ne nécessite aucune collecte de données robotiques réelles ni démonstration humaine, la rendant bien plus scalable à des tâches et points de vue divers. Empiriquement, GeneralVLA génère avec succès des trajectoires pour 14 tâches, surpassant significativement les méthodes state-of-the-art telles que VoxPoser. Les démonstrations générées permettent d'entraîner des politiques de clonage comportemental plus robustes qu'avec des démonstrations humaines ou des données générées par VoxPoser, Scaling-up et Code-As-Policies. Nous pensons que GeneralVLA peut devenir la méthode scalable pour à la fois générer des données pour la robotique et résoudre de nouvelles tâches dans un cadre zero-shot. Code : https://github.com/AIGeeksGroup/GeneralVLA. Site web : https://aigeeksgroup.github.io/GeneralVLA.
English
Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is that the models exhibit limited zero-shot capability, which hampers their ability to generalize effectively to unseen scenarios. In this work, we propose GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), a hierarchical vision-language-action (VLA) model that can be more effective in utilizing the generalization of foundation models, enabling zero-shot manipulation and automatically generating data for robotics. In particular, we study a class of hierarchical VLA model where the high-level ASM (Affordance Segmentation Module) is finetuned to perceive image keypoint affordances of the scene; the mid-level 3DAgent carries out task understanding, skill knowledge, and trajectory planning to produce a 3D path indicating the desired robot end-effector trajectory. The intermediate 3D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Compared to alternative approaches, our method requires no real-world robotic data collection or human demonstration, making it much more scalable to diverse tasks and viewpoints. Empirically, GeneralVLA successfully generates trajectories for 14 tasks, significantly outperforming state-of-the-art methods such as VoxPoser. The generated demonstrations can train more robust behavior cloning policies than training with human demonstrations or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe GeneralVLA can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.
PDF12February 17, 2026