GPT-4V(ision) для робототехники: многомодальное планирование задач на основе демонстраций человека

Аннотация

Мы представляем конвейер, который расширяет возможности универсальной модели обработки визуальной и языковой информации GPT-4V(ision), интегрируя наблюдения за действиями человека для облегчения роботизированного манипулирования. Эта система анализирует видео, на которых люди выполняют задачи, и создает исполняемые программы для роботов, включающие данные о возможностях взаимодействия. Вычисления начинаются с анализа видео с помощью GPT-4V для преобразования деталей окружающей среды и действий в текст, за которым следует планирование задач с использованием GPT-4. В последующих анализах системы компьютерного зрения повторно анализируют видео с учетом плана задачи. Названия объектов уточняются с помощью детектора объектов с открытым словарем, а фокус на взаимодействии руки и объекта помогает определить моменты захвата и отпускания. Это пространственно-временное уточнение позволяет системам компьютерного зрения дополнительно собирать данные о возможностях взаимодействия (например, тип захвата, ключевые точки и позы тела). Эксперименты в различных сценариях демонстрируют эффективность этого метода в достижении операций реальных роботов на основе демонстраций человека в режиме zero-shot. Подсказки для GPT-4V/GPT-4 доступны на странице проекта: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

English

We introduce a pipeline that enhances a general-purpose Vision Language Model, GPT-4V(ision), by integrating observations of human actions to facilitate robotic manipulation. This system analyzes videos of humans performing tasks and creates executable robot programs that incorporate affordance insights. The computation starts by analyzing the videos with GPT-4V to convert environmental and action details into text, followed by a GPT-4-empowered task planner. In the following analyses, vision systems reanalyze the video with the task plan. Object names are grounded using an open-vocabulary object detector, while focus on the hand-object relation helps to detect the moment of grasping and releasing. This spatiotemporal grounding allows the vision systems to further gather affordance data (e.g., grasp type, way points, and body postures). Experiments across various scenarios demonstrate this method's efficacy in achieving real robots' operations from human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are available at this project page: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

GPT-4V(ision) для робототехники: многомодальное планирование задач на основе демонстраций человека

GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

Аннотация

Support