GeneralVLA: Modelos Visión-Lenguaje-Acción Generalizables con Planificación de Trayectorias Guiada por Conocimiento
GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning
February 4, 2026
Autores: Guoqing Ma, Siheng Wang, Zeyu Zhang, Shan Yu, Hao Tang
cs.AI
Resumen
Los grandes modelos fundacionales han demostrado una fuerte generalización en mundo abierto para problemas complejos en visión y lenguaje, pero aún no se han alcanzado niveles similares de generalización en robótica. Un desafío fundamental es que los modelos exhiben una capacidad limitada de zero-shot, lo que dificulta su habilidad para generalizar efectivamente a escenarios no vistos. En este trabajo, proponemos GeneralVLA (Modelos Generalizables de Visión-Lenguaje-Acción con Planificación de Trayectoria Guiada por Conocimiento), un modelo jerárquico de visión-lenguaje-acción (VLA) que puede ser más efectivo para utilizar la generalización de los modelos fundacionales, permitiendo la manipulación zero-shot y generando automáticamente datos para robótica. En particular, estudiamos una clase de modelo VLA jerárquico donde el módulo de alto nivel ASM (Módulo de Segmentación de Afordanzas) se ajusta para percibir las afordanzas de puntos clave de la imagen en la escena; el agente 3D de nivel medio lleva a cabo la comprensión de tareas, el conocimiento de habilidades y la planificación de trayectorias para producir una ruta 3D que indica la trayectoria deseada del efector final del robot. La predicción intermedia de la ruta 3D sirve luego como guía para la política de control de bajo nivel, consciente del entorno 3D y capaz de realizar manipulaciones precisas. En comparación con enfoques alternativos, nuestro método no requiere recopilación de datos robóticos del mundo real ni demostraciones humanas, lo que lo hace mucho más escalable para diversas tareas y puntos de vista. Empíricamente, GeneralVLA genera con éxito trayectorias para 14 tareas, superando significativamente a métodos state-of-the-art como VoxPoser. Las demostraciones generadas pueden entrenar políticas de clonación de comportamiento más robustas que el entrenamiento con demostraciones humanas o con datos generados por VoxPoser, Scaling-up y Code-As-Policies. Creemos que GeneralVLA puede ser el método escalable tanto para generar datos para robótica como para resolver nuevas tareas en un entorno zero-shot. Código: https://github.com/AIGeeksGroup/GeneralVLA. Sitio web: https://aigeeksgroup.github.io/GeneralVLA.
English
Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is that the models exhibit limited zero-shot capability, which hampers their ability to generalize effectively to unseen scenarios. In this work, we propose GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), a hierarchical vision-language-action (VLA) model that can be more effective in utilizing the generalization of foundation models, enabling zero-shot manipulation and automatically generating data for robotics. In particular, we study a class of hierarchical VLA model where the high-level ASM (Affordance Segmentation Module) is finetuned to perceive image keypoint affordances of the scene; the mid-level 3DAgent carries out task understanding, skill knowledge, and trajectory planning to produce a 3D path indicating the desired robot end-effector trajectory. The intermediate 3D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Compared to alternative approaches, our method requires no real-world robotic data collection or human demonstration, making it much more scalable to diverse tasks and viewpoints. Empirically, GeneralVLA successfully generates trajectories for 14 tasks, significantly outperforming state-of-the-art methods such as VoxPoser. The generated demonstrations can train more robust behavior cloning policies than training with human demonstrations or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe GeneralVLA can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.