ChatPaper.aiChatPaper

Raisonnement et préhension robotiques basés sur le langage en forme libre

Free-form language-based robotic reasoning and grasping

March 17, 2025
Auteurs: Runyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi
cs.AI

Résumé

La réalisation de la préhension robotique dans un bac encombré à partir d'instructions humaines constitue une tâche complexe, car elle nécessite à la fois la compréhension des nuances du langage libre et des relations spatiales entre les objets. Les modèles vision-langage (VLMs) entraînés sur des données à l'échelle du web, tels que GPT-4o, ont démontré des capacités de raisonnement remarquables à la fois sur le texte et les images. Mais peuvent-ils réellement être utilisés pour cette tâche dans un contexte zero-shot ? Et quelles sont leurs limites ? Dans cet article, nous explorons ces questions de recherche via la tâche de préhension robotique basée sur le langage libre, et proposons une nouvelle méthode, FreeGrasp, qui exploite les connaissances du monde des VLMs pré-entraînés pour raisonner sur les instructions humaines et les arrangements spatiaux des objets. Notre méthode détecte tous les objets sous forme de points clés et utilise ces points pour annoter des marques sur les images, visant à faciliter le raisonnement spatial zero-shot de GPT-4o. Cela permet à notre méthode de déterminer si un objet demandé est directement préhensible ou si d'autres objets doivent d'abord être saisis et retirés. Comme aucun ensemble de données existant n'est spécifiquement conçu pour cette tâche, nous introduisons un ensemble de données synthétique, FreeGraspData, en étendant le jeu de données MetaGraspNetV2 avec des instructions annotées par des humains et des séquences de préhension de référence. Nous menons des analyses approfondies avec FreeGraspData ainsi qu'une validation en conditions réelles avec un bras robotique équipé d'une pince, démontrant des performances de pointe en matière de raisonnement et d'exécution de la préhension. Site du projet : https://tev-fbk.github.io/FreeGrasp/.
English
Performing robotic grasping from a cluttered bin based on human instructions is a challenging task, as it requires understanding both the nuances of free-form language and the spatial relationships between objects. Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have demonstrated remarkable reasoning capabilities across both text and images. But can they truly be used for this task in a zero-shot setting? And what are their limitations? In this paper, we explore these research questions via the free-form language-based robotic grasping task, and propose a novel method, FreeGrasp, leveraging the pre-trained VLMs' world knowledge to reason about human instructions and object spatial arrangements. Our method detects all objects as keypoints and uses these keypoints to annotate marks on images, aiming to facilitate GPT-4o's zero-shot spatial reasoning. This allows our method to determine whether a requested object is directly graspable or if other objects must be grasped and removed first. Since no existing dataset is specifically designed for this task, we introduce a synthetic dataset FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated instructions and ground-truth grasping sequences. We conduct extensive analyses with both FreeGraspData and real-world validation with a gripper-equipped robotic arm, demonstrating state-of-the-art performance in grasp reasoning and execution. Project website: https://tev-fbk.github.io/FreeGrasp/.

Summary

AI-Generated Summary

PDF103March 18, 2025