로봇공학을 위한 GPT-4V(ision): 인간 시연을 통한 멀티모달 작업 계획
GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration
November 20, 2023
저자: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
cs.AI
초록
우리는 인간의 행동 관찰을 통합하여 로봇 조작을 용이하게 하는 범용 비전 언어 모델인 GPT-4V(ision)를 강화하는 파이프라인을 소개합니다. 이 시스템은 인간이 작업을 수행하는 비디오를 분석하고, 어포던스 통찰을 포함한 실행 가능한 로봇 프로그램을 생성합니다. 계산은 GPT-4V를 사용하여 비디오를 분석하고 환경 및 행동 세부 사항을 텍스트로 변환하는 것으로 시작되며, 이어서 GPT-4로 강화된 작업 계획기가 이를 처리합니다. 이후 분석에서 비전 시스템은 작업 계획과 함께 비디오를 재분석합니다. 객체 이름은 개방형 어휘 객체 탐지기를 사용하여 고정되며, 손과 객체 간의 관계에 초점을 맞춰 잡고 놓는 순간을 감지합니다. 이러한 시공간적 고정을 통해 비전 시스템은 어포던스 데이터(예: 잡기 유형, 경유점, 신체 자세)를 추가로 수집할 수 있습니다. 다양한 시나리오에서의 실험은 이 방법이 제로샷 방식으로 인간의 시연에서 실제 로봇의 작동을 달성하는 데 효과적임을 입증합니다. GPT-4V/GPT-4의 프롬프트는 이 프로젝트 페이지에서 확인할 수 있습니다: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
English
We introduce a pipeline that enhances a general-purpose Vision Language
Model, GPT-4V(ision), by integrating observations of human actions to
facilitate robotic manipulation. This system analyzes videos of humans
performing tasks and creates executable robot programs that incorporate
affordance insights. The computation starts by analyzing the videos with GPT-4V
to convert environmental and action details into text, followed by a
GPT-4-empowered task planner. In the following analyses, vision systems
reanalyze the video with the task plan. Object names are grounded using an
open-vocabulary object detector, while focus on the hand-object relation helps
to detect the moment of grasping and releasing. This spatiotemporal grounding
allows the vision systems to further gather affordance data (e.g., grasp type,
way points, and body postures). Experiments across various scenarios
demonstrate this method's efficacy in achieving real robots' operations from
human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are
available at this project page:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/