GPT-4V(isión) para Robótica: Planificación de Tareas Multimodales a partir de Demostraciones Humanas

Resumen

Presentamos una canalización que mejora un Modelo de Lenguaje Visual de propósito general, GPT-4V(isión), mediante la integración de observaciones de acciones humanas para facilitar la manipulación robótica. Este sistema analiza videos de humanos realizando tareas y crea programas ejecutables para robots que incorporan conocimientos sobre afordancias. El proceso comienza analizando los videos con GPT-4V para convertir los detalles ambientales y de acción en texto, seguido de un planificador de tareas potenciado por GPT-4. En los análisis posteriores, los sistemas de visión vuelven a analizar el video con el plan de tareas. Los nombres de los objetos se fundamentan utilizando un detector de objetos de vocabulario abierto, mientras que el enfoque en la relación mano-objeto ayuda a detectar el momento de agarre y liberación. Esta fundamentación espacio-temporal permite que los sistemas de visión recopilen más datos sobre afordancias (por ejemplo, tipo de agarre, puntos de referencia y posturas corporales). Los experimentos en diversos escenarios demuestran la eficacia de este método para lograr operaciones en robots reales a partir de demostraciones humanas de manera zero-shot. Los prompts de GPT-4V/GPT-4 están disponibles en la página del proyecto: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

English

We introduce a pipeline that enhances a general-purpose Vision Language Model, GPT-4V(ision), by integrating observations of human actions to facilitate robotic manipulation. This system analyzes videos of humans performing tasks and creates executable robot programs that incorporate affordance insights. The computation starts by analyzing the videos with GPT-4V to convert environmental and action details into text, followed by a GPT-4-empowered task planner. In the following analyses, vision systems reanalyze the video with the task plan. Object names are grounded using an open-vocabulary object detector, while focus on the hand-object relation helps to detect the moment of grasping and releasing. This spatiotemporal grounding allows the vision systems to further gather affordance data (e.g., grasp type, way points, and body postures). Experiments across various scenarios demonstrate this method's efficacy in achieving real robots' operations from human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are available at this project page: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

GPT-4V(isión) para Robótica: Planificación de Tareas Multimodales a partir de Demostraciones Humanas

GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

Resumen

Support