GPT-4V(ision) pour la robotique : Planification de tâches multimodales à partir de démonstrations humaines
GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration
November 20, 2023
papers.authors: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
cs.AI
papers.abstract
Nous présentons un pipeline qui améliore un modèle de vision et langage à usage général, GPT-4V(ision), en intégrant des observations d'actions humaines pour faciliter la manipulation robotique. Ce système analyse des vidéos de personnes exécutant des tâches et crée des programmes robotiques exécutables qui intègrent des insights sur les affordances. Le calcul commence par l'analyse des vidéos avec GPT-4V pour convertir les détails environnementaux et d'action en texte, suivie par un planificateur de tâches alimenté par GPT-4. Dans les analyses suivantes, les systèmes de vision réanalysent la vidéo avec le plan de tâche. Les noms d'objets sont ancrés à l'aide d'un détecteur d'objets à vocabulaire ouvert, tandis que l'accent sur la relation main-objet aide à détecter le moment de la saisie et du relâchement. Cet ancrage spatio-temporel permet aux systèmes de vision de recueillir davantage de données sur les affordances (par exemple, le type de préhension, les points de passage et les postures corporelles). Des expériences menées dans divers scénarios démontrent l'efficacité de cette méthode pour réaliser des opérations de robots réels à partir de démonstrations humaines de manière zero-shot. Les prompts de GPT-4V/GPT-4 sont disponibles sur la page du projet : https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
English
We introduce a pipeline that enhances a general-purpose Vision Language
Model, GPT-4V(ision), by integrating observations of human actions to
facilitate robotic manipulation. This system analyzes videos of humans
performing tasks and creates executable robot programs that incorporate
affordance insights. The computation starts by analyzing the videos with GPT-4V
to convert environmental and action details into text, followed by a
GPT-4-empowered task planner. In the following analyses, vision systems
reanalyze the video with the task plan. Object names are grounded using an
open-vocabulary object detector, while focus on the hand-object relation helps
to detect the moment of grasping and releasing. This spatiotemporal grounding
allows the vision systems to further gather affordance data (e.g., grasp type,
way points, and body postures). Experiments across various scenarios
demonstrate this method's efficacy in achieving real robots' operations from
human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are
available at this project page:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/