ChatPaper.aiChatPaper

Ragionamento robotico e presa basati su linguaggio libero da vincoli formali

Free-form language-based robotic reasoning and grasping

March 17, 2025
Autori: Runyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi
cs.AI

Abstract

Eseguire la presa robotica da un contenitore disordinato basandosi su istruzioni umane è un compito impegnativo, poiché richiede la comprensione sia delle sfumature del linguaggio libero che delle relazioni spaziali tra gli oggetti. I modelli visione-linguaggio (VLMs) addestrati su dati su larga scala, come GPT-4o, hanno dimostrato capacità di ragionamento notevoli sia su testo che su immagini. Ma possono davvero essere utilizzati per questo compito in un contesto zero-shot? E quali sono i loro limiti? In questo articolo, esploriamo queste domande di ricerca attraverso il compito di presa robotica basato su linguaggio libero e proponiamo un nuovo metodo, FreeGrasp, che sfrutta la conoscenza pre-addestrata dei VLMs per ragionare sulle istruzioni umane e sulle disposizioni spaziali degli oggetti. Il nostro metodo rileva tutti gli oggetti come punti chiave e utilizza questi punti per annotare marcatori sulle immagini, con l'obiettivo di facilitare il ragionamento spaziale zero-shot di GPT-4o. Ciò consente al nostro metodo di determinare se un oggetto richiesto è direttamente afferrabile o se è necessario afferrare e rimuovere prima altri oggetti. Poiché non esiste un dataset specificamente progettato per questo compito, introduciamo un dataset sintetico, FreeGraspData, estendendo il dataset MetaGraspNetV2 con istruzioni annotate da esseri umani e sequenze di presa con verità di base. Eseguiamo analisi estensive sia con FreeGraspData che con validazioni nel mondo reale utilizzando un braccio robotico dotato di pinza, dimostrando prestazioni all'avanguardia nel ragionamento e nell'esecuzione della presa. Sito web del progetto: https://tev-fbk.github.io/FreeGrasp/.
English
Performing robotic grasping from a cluttered bin based on human instructions is a challenging task, as it requires understanding both the nuances of free-form language and the spatial relationships between objects. Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have demonstrated remarkable reasoning capabilities across both text and images. But can they truly be used for this task in a zero-shot setting? And what are their limitations? In this paper, we explore these research questions via the free-form language-based robotic grasping task, and propose a novel method, FreeGrasp, leveraging the pre-trained VLMs' world knowledge to reason about human instructions and object spatial arrangements. Our method detects all objects as keypoints and uses these keypoints to annotate marks on images, aiming to facilitate GPT-4o's zero-shot spatial reasoning. This allows our method to determine whether a requested object is directly graspable or if other objects must be grasped and removed first. Since no existing dataset is specifically designed for this task, we introduce a synthetic dataset FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated instructions and ground-truth grasping sequences. We conduct extensive analyses with both FreeGraspData and real-world validation with a gripper-equipped robotic arm, demonstrating state-of-the-art performance in grasp reasoning and execution. Project website: https://tev-fbk.github.io/FreeGrasp/.
PDF103March 18, 2025