GPT-4V(ision) para Robótica: Planejamento de Tarefas Multimodais a partir de Demonstrações Humanas
GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration
November 20, 2023
Autores: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
cs.AI
Resumo
Apresentamos um pipeline que aprimora um Modelo de Linguagem Visual de propósito geral, GPT-4V(ision), ao integrar observações de ações humanas para facilitar a manipulação robótica. Este sistema analisa vídeos de humanos realizando tarefas e cria programas robóticos executáveis que incorporam insights de affordance. A computação começa analisando os vídeos com o GPT-4V para converter detalhes ambientais e de ação em texto, seguido por um planejador de tarefas capacitado pelo GPT-4. Nas análises subsequentes, sistemas de visão reanalisam o vídeo com o plano de tarefa. Os nomes dos objetos são fundamentados usando um detector de objetos de vocabulário aberto, enquanto o foco na relação mão-objeto ajuda a detectar o momento de agarrar e soltar. Esse fundamento espaço-temporal permite que os sistemas de visão coletem dados adicionais de affordance (por exemplo, tipo de agarramento, pontos de trajetória e posturas corporais). Experimentos em vários cenários demonstram a eficácia desse método na realização de operações de robôs reais a partir de demonstrações humanas de maneira zero-shot. Os prompts do GPT-4V/GPT-4 estão disponíveis na página do projeto:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
English
We introduce a pipeline that enhances a general-purpose Vision Language
Model, GPT-4V(ision), by integrating observations of human actions to
facilitate robotic manipulation. This system analyzes videos of humans
performing tasks and creates executable robot programs that incorporate
affordance insights. The computation starts by analyzing the videos with GPT-4V
to convert environmental and action details into text, followed by a
GPT-4-empowered task planner. In the following analyses, vision systems
reanalyze the video with the task plan. Object names are grounded using an
open-vocabulary object detector, while focus on the hand-object relation helps
to detect the moment of grasping and releasing. This spatiotemporal grounding
allows the vision systems to further gather affordance data (e.g., grasp type,
way points, and body postures). Experiments across various scenarios
demonstrate this method's efficacy in achieving real robots' operations from
human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are
available at this project page:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/