GPT-4V(ision) per la Robotica: Pianificazione Multimodale di Compiti a Partire da Dimostrazioni Umane
GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration
November 20, 2023
Autori: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
cs.AI
Abstract
Introduciamo una pipeline che potenzia un modello linguistico-visivo generico, GPT-4V(ision), integrando osservazioni di azioni umane per facilitare la manipolazione robotica. Questo sistema analizza video di esseri umani che eseguono compiti e crea programmi robotici eseguibili che incorporano intuizioni sulle affordance. Il calcolo inizia analizzando i video con GPT-4V per convertire i dettagli ambientali e delle azioni in testo, seguito da un pianificatore di compiti potenziato da GPT-4. Nelle analisi successive, i sistemi visivi rianalizzano il video con il piano del compito. I nomi degli oggetti vengono ancorati utilizzando un rilevatore di oggetti a vocabolario aperto, mentre l'attenzione sulla relazione mano-oggetto aiuta a rilevare il momento della presa e del rilascio. Questo ancoraggio spaziotemporale consente ai sistemi visivi di raccogliere ulteriori dati sulle affordance (ad esempio, tipo di presa, punti di passaggio e posture del corpo). Esperimenti in vari scenari dimostrano l'efficacia di questo metodo nel far eseguire operazioni a robot reali a partire da dimostrazioni umane in modalità zero-shot. I prompt di GPT-4V/GPT-4 sono disponibili nella pagina del progetto: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
English
We introduce a pipeline that enhances a general-purpose Vision Language
Model, GPT-4V(ision), by integrating observations of human actions to
facilitate robotic manipulation. This system analyzes videos of humans
performing tasks and creates executable robot programs that incorporate
affordance insights. The computation starts by analyzing the videos with GPT-4V
to convert environmental and action details into text, followed by a
GPT-4-empowered task planner. In the following analyses, vision systems
reanalyze the video with the task plan. Object names are grounded using an
open-vocabulary object detector, while focus on the hand-object relation helps
to detect the moment of grasping and releasing. This spatiotemporal grounding
allows the vision systems to further gather affordance data (e.g., grasp type,
way points, and body postures). Experiments across various scenarios
demonstrate this method's efficacy in achieving real robots' operations from
human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are
available at this project page:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/