GeneralVLA: Modelli Visione-Linguaggio-Azione Generalizzabili con Pianificazione di Traiettorie Guidata dalla Conoscenza

Abstract

I grandi modelli di base hanno dimostrato una forte generalizzazione in contesti aperti per problemi complessi nella visione e nel linguaggio, ma livelli simili di generalizzazione non sono ancora stati raggiunti nella robotica. Una sfida fondamentale è che questi modelli mostrano capacità limitate di zero-shot, il che ostacola la loro abilità di generalizzare efficacemente a scenari non visti. In questo lavoro, proponiamo GeneralVLA (Modelli Generalizzabili Visione-Linguaggio-Azione con Pianificazione di Traiettorie Guidata dalla Conoscenza), un modello gerarchico visione-linguaggio-azione (VLA) che può essere più efficace nell'utilizzare la generalizzazione dei modelli di base, abilitando la manipolazione zero-shot e generando automaticamente dati per la robotica. In particolare, studiamo una classe di modelli VLA gerarchici in cui il modulo di alto livello ASM (Modulo di Segmentazione delle Affordanze) viene messo a punto per percepire le affordanze dei punti chiave dell'immagine della scena; l'agente di medio livello 3DAgent svolte la comprensione del compito, la conoscenza delle abilità e la pianificazione della traiettoria per produrre un percorso 3D che indica la traiettoria desiderata dell'end-effector del robot. La previsione intermedia del percorso 3D viene poi utilizzata come guida per la politica di controllo di basso livello, consapevole della 3D, capace di manipolazione precisa. Rispetto ad approcci alternativi, il nostro metodo non richiede la raccolta di dati robotici nel mondo reale o dimostrazioni umane, rendendolo molto più scalabile per compiti e punti di vista diversi. Empiricamente, GeneralVLA genera con successo traiettorie per 14 compiti, superando significativamente metodi all'avanguardia come VoxPoser. Le dimostrazioni generate possono addestrare politiche di clonazione del comportamento più robuste rispetto all'addestramento con dimostrazioni umane o con dati generati da VoxPoser, Scaling-up e Code-As-Policies. Crediamo che GeneralVLA possa essere il metodo scalabile sia per generare dati per la robotica che per risolvere nuovi compiti in uno scenario zero-shot. Codice: https://github.com/AIGeeksGroup/GeneralVLA. Sito web: https://aigeeksgroup.github.io/GeneralVLA.

English

Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is that the models exhibit limited zero-shot capability, which hampers their ability to generalize effectively to unseen scenarios. In this work, we propose GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), a hierarchical vision-language-action (VLA) model that can be more effective in utilizing the generalization of foundation models, enabling zero-shot manipulation and automatically generating data for robotics. In particular, we study a class of hierarchical VLA model where the high-level ASM (Affordance Segmentation Module) is finetuned to perceive image keypoint affordances of the scene; the mid-level 3DAgent carries out task understanding, skill knowledge, and trajectory planning to produce a 3D path indicating the desired robot end-effector trajectory. The intermediate 3D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Compared to alternative approaches, our method requires no real-world robotic data collection or human demonstration, making it much more scalable to diverse tasks and viewpoints. Empirically, GeneralVLA successfully generates trajectories for 14 tasks, significantly outperforming state-of-the-art methods such as VoxPoser. The generated demonstrations can train more robust behavior cloning policies than training with human demonstrations or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe GeneralVLA can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.

GeneralVLA: Modelli Visione-Linguaggio-Azione Generalizzabili con Pianificazione di Traiettorie Guidata dalla Conoscenza

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Abstract

Support