Vrije-vorm taalgebaseerd robotisch redeneren en grijpen
Free-form language-based robotic reasoning and grasping
March 17, 2025
Auteurs: Runyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi
cs.AI
Samenvatting
Het uitvoeren van robotisch grijpen uit een rommelige bak op basis van menselijke instructies
is een uitdagende taak, omdat het zowel het begrijpen van de nuances van
vrije-vormtaal als de ruimtelijke relaties tussen objecten vereist.
Vision-Language Models (VLMs) die getraind zijn op web-schaal data, zoals GPT-4o, hebben
opmerkelijke redeneervaardigheden getoond over zowel tekst als afbeeldingen. Maar
kunnen ze echt gebruikt worden voor deze taak in een zero-shot setting? En wat zijn hun
beperkingen? In dit artikel onderzoeken we deze onderzoeksvragen via de
vrije-vormtaal-gebaseerde robotische grijptaak, en stellen we een nieuwe methode voor,
FreeGrasp, die gebruik maakt van de wereldkennis van vooraf getrainde VLMs om te redeneren over
menselijke instructies en ruimtelijke objectarrangementen. Onze methode detecteert alle
objecten als keypoints en gebruikt deze keypoints om annotaties op afbeeldingen aan te brengen,
met als doel het zero-shot ruimtelijk redeneren van GPT-4o te vergemakkelijken. Hierdoor kan onze
methode bepalen of een gevraagd object direct grijpbaar is of dat eerst andere objecten moeten worden
gegrepen en verwijderd. Omdat er geen bestaande dataset specifiek voor deze taak is ontworpen,
introduceren we een synthetische dataset, FreeGraspData, door de MetaGraspNetV2 dataset uit te breiden met
door mensen geannoteerde instructies en grondwaarheid-grijpsequenties. We voeren uitgebreide analyses uit
met zowel FreeGraspData als validatie in de echte wereld met een robotarm uitgerust met een grijper, waarbij we
state-of-the-art prestaties demonstreren in grijpredenering en -uitvoering. Projectwebsite: https://tev-fbk.github.io/FreeGrasp/.
English
Performing robotic grasping from a cluttered bin based on human instructions
is a challenging task, as it requires understanding both the nuances of
free-form language and the spatial relationships between objects.
Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have
demonstrated remarkable reasoning capabilities across both text and images. But
can they truly be used for this task in a zero-shot setting? And what are their
limitations? In this paper, we explore these research questions via the
free-form language-based robotic grasping task, and propose a novel method,
FreeGrasp, leveraging the pre-trained VLMs' world knowledge to reason about
human instructions and object spatial arrangements. Our method detects all
objects as keypoints and uses these keypoints to annotate marks on images,
aiming to facilitate GPT-4o's zero-shot spatial reasoning. This allows our
method to determine whether a requested object is directly graspable or if
other objects must be grasped and removed first. Since no existing dataset is
specifically designed for this task, we introduce a synthetic dataset
FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated
instructions and ground-truth grasping sequences. We conduct extensive analyses
with both FreeGraspData and real-world validation with a gripper-equipped
robotic arm, demonstrating state-of-the-art performance in grasp reasoning and
execution. Project website: https://tev-fbk.github.io/FreeGrasp/.Summary
AI-Generated Summary