GPT-4V(ision) для робототехники: многомодальное планирование задач на основе демонстраций человека
GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration
November 20, 2023
Авторы: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
cs.AI
Аннотация
Мы представляем конвейер, который расширяет возможности универсальной модели обработки визуальной и языковой информации GPT-4V(ision), интегрируя наблюдения за действиями человека для облегчения роботизированного манипулирования. Эта система анализирует видео, на которых люди выполняют задачи, и создает исполняемые программы для роботов, включающие данные о возможностях взаимодействия. Вычисления начинаются с анализа видео с помощью GPT-4V для преобразования деталей окружающей среды и действий в текст, за которым следует планирование задач с использованием GPT-4. В последующих анализах системы компьютерного зрения повторно анализируют видео с учетом плана задачи. Названия объектов уточняются с помощью детектора объектов с открытым словарем, а фокус на взаимодействии руки и объекта помогает определить моменты захвата и отпускания. Это пространственно-временное уточнение позволяет системам компьютерного зрения дополнительно собирать данные о возможностях взаимодействия (например, тип захвата, ключевые точки и позы тела). Эксперименты в различных сценариях демонстрируют эффективность этого метода в достижении операций реальных роботов на основе демонстраций человека в режиме zero-shot. Подсказки для GPT-4V/GPT-4 доступны на странице проекта:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
English
We introduce a pipeline that enhances a general-purpose Vision Language
Model, GPT-4V(ision), by integrating observations of human actions to
facilitate robotic manipulation. This system analyzes videos of humans
performing tasks and creates executable robot programs that incorporate
affordance insights. The computation starts by analyzing the videos with GPT-4V
to convert environmental and action details into text, followed by a
GPT-4-empowered task planner. In the following analyses, vision systems
reanalyze the video with the task plan. Object names are grounded using an
open-vocabulary object detector, while focus on the hand-object relation helps
to detect the moment of grasping and releasing. This spatiotemporal grounding
allows the vision systems to further gather affordance data (e.g., grasp type,
way points, and body postures). Experiments across various scenarios
demonstrate this method's efficacy in achieving real robots' operations from
human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are
available at this project page:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/