GPT-4V(isión) para Robótica: Planificación de Tareas Multimodales a partir de Demostraciones Humanas
GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration
November 20, 2023
Autores: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
cs.AI
Resumen
Presentamos una canalización que mejora un Modelo de Lenguaje Visual de propósito general, GPT-4V(isión), mediante la integración de observaciones de acciones humanas para facilitar la manipulación robótica. Este sistema analiza videos de humanos realizando tareas y crea programas ejecutables para robots que incorporan conocimientos sobre afordancias. El proceso comienza analizando los videos con GPT-4V para convertir los detalles ambientales y de acción en texto, seguido de un planificador de tareas potenciado por GPT-4. En los análisis posteriores, los sistemas de visión vuelven a analizar el video con el plan de tareas. Los nombres de los objetos se fundamentan utilizando un detector de objetos de vocabulario abierto, mientras que el enfoque en la relación mano-objeto ayuda a detectar el momento de agarre y liberación. Esta fundamentación espacio-temporal permite que los sistemas de visión recopilen más datos sobre afordancias (por ejemplo, tipo de agarre, puntos de referencia y posturas corporales). Los experimentos en diversos escenarios demuestran la eficacia de este método para lograr operaciones en robots reales a partir de demostraciones humanas de manera zero-shot. Los prompts de GPT-4V/GPT-4 están disponibles en la página del proyecto:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
English
We introduce a pipeline that enhances a general-purpose Vision Language
Model, GPT-4V(ision), by integrating observations of human actions to
facilitate robotic manipulation. This system analyzes videos of humans
performing tasks and creates executable robot programs that incorporate
affordance insights. The computation starts by analyzing the videos with GPT-4V
to convert environmental and action details into text, followed by a
GPT-4-empowered task planner. In the following analyses, vision systems
reanalyze the video with the task plan. Object names are grounded using an
open-vocabulary object detector, while focus on the hand-object relation helps
to detect the moment of grasping and releasing. This spatiotemporal grounding
allows the vision systems to further gather affordance data (e.g., grasp type,
way points, and body postures). Experiments across various scenarios
demonstrate this method's efficacy in achieving real robots' operations from
human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are
available at this project page:
https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/