Razonamiento robótico y manipulación basados en lenguaje de forma libre
Free-form language-based robotic reasoning and grasping
March 17, 2025
Autores: Runyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi
cs.AI
Resumen
Realizar agarres robóticos en un contenedor desordenado basándose en instrucciones humanas es una tarea desafiante, ya que requiere comprender tanto los matices del lenguaje libre como las relaciones espaciales entre objetos. Los Modelos de Visión-Lenguaje (VLMs) entrenados con datos a escala web, como GPT-4o, han demostrado capacidades de razonamiento notables tanto en texto como en imágenes. Pero, ¿pueden realmente utilizarse para esta tarea en un entorno de cero disparos? ¿Y cuáles son sus limitaciones? En este artículo, exploramos estas preguntas de investigación a través de la tarea de agarre robótico basada en lenguaje libre y proponemos un método novedoso, FreeGrasp, que aprovecha el conocimiento del mundo de los VLMs preentrenados para razonar sobre las instrucciones humanas y las disposiciones espaciales de los objetos. Nuestro método detecta todos los objetos como puntos clave y utiliza estos puntos para anotar marcas en las imágenes, con el objetivo de facilitar el razonamiento espacial de GPT-4o en un entorno de cero disparos. Esto permite que nuestro método determine si un objeto solicitado es directamente agarrable o si primero se deben agarrar y retirar otros objetos. Dado que no existe un conjunto de datos específicamente diseñado para esta tarea, introducimos un conjunto de datos sintético, FreeGraspData, extendiendo el conjunto de datos MetaGraspNetV2 con instrucciones anotadas por humanos y secuencias de agarre con verdad de terreno. Realizamos análisis exhaustivos tanto con FreeGraspData como con validaciones en el mundo real utilizando un brazo robótico equipado con una pinza, demostrando un rendimiento de vanguardia en el razonamiento y ejecución de agarres. Sitio web del proyecto: https://tev-fbk.github.io/FreeGrasp/.
English
Performing robotic grasping from a cluttered bin based on human instructions
is a challenging task, as it requires understanding both the nuances of
free-form language and the spatial relationships between objects.
Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have
demonstrated remarkable reasoning capabilities across both text and images. But
can they truly be used for this task in a zero-shot setting? And what are their
limitations? In this paper, we explore these research questions via the
free-form language-based robotic grasping task, and propose a novel method,
FreeGrasp, leveraging the pre-trained VLMs' world knowledge to reason about
human instructions and object spatial arrangements. Our method detects all
objects as keypoints and uses these keypoints to annotate marks on images,
aiming to facilitate GPT-4o's zero-shot spatial reasoning. This allows our
method to determine whether a requested object is directly graspable or if
other objects must be grasped and removed first. Since no existing dataset is
specifically designed for this task, we introduce a synthetic dataset
FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated
instructions and ground-truth grasping sequences. We conduct extensive analyses
with both FreeGraspData and real-world validation with a gripper-equipped
robotic arm, demonstrating state-of-the-art performance in grasp reasoning and
execution. Project website: https://tev-fbk.github.io/FreeGrasp/.Summary
AI-Generated Summary