ChatPaper.aiChatPaper

GPT-4V(ision) voor Robotica: Multimodale Taakplanning op Basis van Menselijke Demonstratie

GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

November 20, 2023
Auteurs: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
cs.AI

Samenvatting

We introduceren een pijplijn die een algemeen Vision Language Model, GPT-4V(ision), versterkt door observaties van menselijke handelingen te integreren om robotmanipulatie te vergemakkelijken. Dit systeem analyseert video's van mensen die taken uitvoeren en creëert uitvoerbare robotprogramma's die inzichten in affordances incorporeren. De berekening begint met het analyseren van de video's met GPT-4V om omgevings- en actiedetails om te zetten in tekst, gevolgd door een taakplanner die wordt aangedreven door GPT-4. In de daaropvolgende analyses heranalyseren visiesystemen de video met het taakplan. Objectnamen worden verankerd met behulp van een open-vocabulary objectdetector, terwijl de focus op de hand-objectrelatie helpt om het moment van grijpen en loslaten te detecteren. Deze spatiotemporele verankering stelt de visiesystemen in staat om verder affordancegegevens te verzamelen (bijvoorbeeld grijptype, wegpunten en lichaamshoudingen). Experimenten in verschillende scenario's demonstreren de effectiviteit van deze methode om operaties van echte robots te realiseren vanuit menselijke demonstraties op een zero-shot manier. De prompts van GPT-4V/GPT-4 zijn beschikbaar op deze projectpagina: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
English
We introduce a pipeline that enhances a general-purpose Vision Language Model, GPT-4V(ision), by integrating observations of human actions to facilitate robotic manipulation. This system analyzes videos of humans performing tasks and creates executable robot programs that incorporate affordance insights. The computation starts by analyzing the videos with GPT-4V to convert environmental and action details into text, followed by a GPT-4-empowered task planner. In the following analyses, vision systems reanalyze the video with the task plan. Object names are grounded using an open-vocabulary object detector, while focus on the hand-object relation helps to detect the moment of grasping and releasing. This spatiotemporal grounding allows the vision systems to further gather affordance data (e.g., grasp type, way points, and body postures). Experiments across various scenarios demonstrate this method's efficacy in achieving real robots' operations from human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are available at this project page: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
PDF61December 15, 2024