GeneralVLA: Generaliseerbare Visie-Taal-Actie Modellen met Kennisgestuurde Trajectplanning

Samenvatting

Grote foundation-modellen hebben sterke open-wereldgeneralizatie getoond voor complexe problemen in visie en taal, maar vergelijkbare generalisatieniveaus zijn nog niet bereikt in robotica. Een fundamentele uitdaging is dat de modellen beperkte zero-shot-capaciteit vertonen, wat hun vermogen om effectief te generaliseren naar onbekende scenario's belemmert. In dit werk stellen we GeneralVLA voor (Generaliseerbare Vision-Language-Action-modellen met kennisgestuurde trajectplanning), een hiërarchisch vision-language-action (VLA)-model dat effectiever gebruik kan maken van de generalisatie van foundation-modellen, waardoor zero-shot-manipulatie en automatische datageneratie voor robotica mogelijk worden. In het bijzonder bestuderen we een klasse hiërarchische VLA-modellen waarbij de hoogste laag, de ASM (Affordance Segmentation Module), wordt gefinetuned om beeldkeypoint-affordances van de scène waar te nemen; de middellaag, 3DAgent, voert taakbegrip, vaardigheidskennis en trajectplanning uit om een 3D-pad te produceren dat de gewenste trajectorie van de robotend-effector aangeeft. De tussenliggende 3D-padvoorspelling dient vervolgens als leidraad voor de laagste laag, een 3D-bewust controlebeleid dat in staat is tot precieze manipulatie. In vergelijking met alternatieve benaderingen vereist onze methode geen gegevensverzameling met echte robots of menselijke demonstraties, waardoor deze veel beter schaalbaar is voor diverse taken en gezichtspunten. Empirisch gezien genereert GeneralVLA met succes trajectorieën voor 14 taken, wat aanzienlijk beter presteert dan state-of-the-art methoden zoals VoxPoser. De gegenereerde demonstraties kunnen robuuster beleid voor gedragskloning trainen dan training met menselijke demonstraties of met gegevens gegenereerd door VoxPoser, Scaling-up en Code-As-Policies. Wij geloven dat GeneralVLA de schaalbare methode kan zijn voor zowel het genereren van data voor robotica als het oplossen van nieuwe taken in een zero-shot-setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.

English

Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is that the models exhibit limited zero-shot capability, which hampers their ability to generalize effectively to unseen scenarios. In this work, we propose GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), a hierarchical vision-language-action (VLA) model that can be more effective in utilizing the generalization of foundation models, enabling zero-shot manipulation and automatically generating data for robotics. In particular, we study a class of hierarchical VLA model where the high-level ASM (Affordance Segmentation Module) is finetuned to perceive image keypoint affordances of the scene; the mid-level 3DAgent carries out task understanding, skill knowledge, and trajectory planning to produce a 3D path indicating the desired robot end-effector trajectory. The intermediate 3D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Compared to alternative approaches, our method requires no real-world robotic data collection or human demonstration, making it much more scalable to diverse tasks and viewpoints. Empirically, GeneralVLA successfully generates trajectories for 14 tasks, significantly outperforming state-of-the-art methods such as VoxPoser. The generated demonstrations can train more robust behavior cloning policies than training with human demonstrations or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe GeneralVLA can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.

GeneralVLA: Generaliseerbare Visie-Taal-Actie Modellen met Kennisgestuurde Trajectplanning

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Samenvatting

Support