GPT-4V(ision) für Robotik: Multimodale Aufgabenplanung aus menschlichen Demonstrationen
GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration
November 20, 2023
Autoren: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
cs.AI
Zusammenfassung
Wir stellen eine Pipeline vor, die ein allgemeines Vision-Language-Modell, GPT-4V(ision), durch die Integration von Beobachtungen menschlicher Handlungen erweitert, um robotische Manipulationen zu ermöglichen. Dieses System analysiert Videos von Menschen, die Aufgaben ausführen, und erstellt ausführbare Roboterprogramme, die Affordance-Erkenntnisse einbeziehen. Die Berechnung beginnt mit der Analyse der Videos durch GPT-4V, um Umgebungs- und Handlungsdetails in Text umzuwandeln, gefolgt von einem durch GPT-4 unterstützten Aufgabenplaner. In den folgenden Analysen untersuchen Vision-Systeme das Video erneut mit dem Aufgabenplan. Objektnamen werden mithilfe eines Open-Vocabulary-Objekterkenners verankert, während der Fokus auf der Hand-Objekt-Beziehung hilft, den Moment des Greifens und Loslassens zu erkennen. Diese räumlich-zeitliche Verankerung ermöglicht es den Vision-Systemen, weitere Affordance-Daten (z. B. Greiftyp, Wegpunkte und Körperhaltungen) zu sammeln. Experimente in verschiedenen Szenarien demonstrieren die Wirksamkeit dieser Methode, um Operationen realer Roboter aus menschlichen Demonstrationen in einem Zero-Shot-Verfahren zu erreichen. Die Prompts von GPT-4V/GPT-4 sind auf der Projektseite verfügbar:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
English
We introduce a pipeline that enhances a general-purpose Vision Language
Model, GPT-4V(ision), by integrating observations of human actions to
facilitate robotic manipulation. This system analyzes videos of humans
performing tasks and creates executable robot programs that incorporate
affordance insights. The computation starts by analyzing the videos with GPT-4V
to convert environmental and action details into text, followed by a
GPT-4-empowered task planner. In the following analyses, vision systems
reanalyze the video with the task plan. Object names are grounded using an
open-vocabulary object detector, while focus on the hand-object relation helps
to detect the moment of grasping and releasing. This spatiotemporal grounding
allows the vision systems to further gather affordance data (e.g., grasp type,
way points, and body postures). Experiments across various scenarios
demonstrate this method's efficacy in achieving real robots' operations from
human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are
available at this project page:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/