GPT-4V(ision) per la Robotica: Pianificazione Multimodale di Compiti a Partire da Dimostrazioni Umane

Abstract

Introduciamo una pipeline che potenzia un modello linguistico-visivo generico, GPT-4V(ision), integrando osservazioni di azioni umane per facilitare la manipolazione robotica. Questo sistema analizza video di esseri umani che eseguono compiti e crea programmi robotici eseguibili che incorporano intuizioni sulle affordance. Il calcolo inizia analizzando i video con GPT-4V per convertire i dettagli ambientali e delle azioni in testo, seguito da un pianificatore di compiti potenziato da GPT-4. Nelle analisi successive, i sistemi visivi rianalizzano il video con il piano del compito. I nomi degli oggetti vengono ancorati utilizzando un rilevatore di oggetti a vocabolario aperto, mentre l'attenzione sulla relazione mano-oggetto aiuta a rilevare il momento della presa e del rilascio. Questo ancoraggio spaziotemporale consente ai sistemi visivi di raccogliere ulteriori dati sulle affordance (ad esempio, tipo di presa, punti di passaggio e posture del corpo). Esperimenti in vari scenari dimostrano l'efficacia di questo metodo nel far eseguire operazioni a robot reali a partire da dimostrazioni umane in modalità zero-shot. I prompt di GPT-4V/GPT-4 sono disponibili nella pagina del progetto: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

English

We introduce a pipeline that enhances a general-purpose Vision Language Model, GPT-4V(ision), by integrating observations of human actions to facilitate robotic manipulation. This system analyzes videos of humans performing tasks and creates executable robot programs that incorporate affordance insights. The computation starts by analyzing the videos with GPT-4V to convert environmental and action details into text, followed by a GPT-4-empowered task planner. In the following analyses, vision systems reanalyze the video with the task plan. Object names are grounded using an open-vocabulary object detector, while focus on the hand-object relation helps to detect the moment of grasping and releasing. This spatiotemporal grounding allows the vision systems to further gather affordance data (e.g., grasp type, way points, and body postures). Experiments across various scenarios demonstrate this method's efficacy in achieving real robots' operations from human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are available at this project page: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

GPT-4V(ision) per la Robotica: Pianificazione Multimodale di Compiti a Partire da Dimostrazioni Umane

GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

Abstract

Support