自由形式の言語ベースのロボット推論と把持
Free-form language-based robotic reasoning and grasping
March 17, 2025
著者: Runyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi
cs.AI
要旨
人間の指示に基づいて散らかった箱からロボット把持を行うことは、自由形式の言語のニュアンスと物体間の空間的関係の両方を理解する必要があるため、非常に困難な課題です。GPT-4oのようなウェブスケールのデータで訓練された視覚言語モデル(VLMs)は、テキストと画像の両方にわたる優れた推論能力を示しています。しかし、これらのモデルをゼロショット設定でこのタスクに使用できるのでしょうか?また、その限界は何でしょうか?本論文では、自由形式言語に基づくロボット把持タスクを通じてこれらの研究課題を探り、事前訓練されたVLMsの世界知識を活用して人間の指示と物体の空間配置を推論する新しい手法、FreeGraspを提案します。本手法では、すべての物体をキーポイントとして検出し、これらのキーポイントを使用して画像に注釈を付け、GPT-4oのゼロショット空間推論を容易にすることを目指しています。これにより、要求された物体が直接把持可能か、または他の物体を先に把持して取り除く必要があるかを判断できます。このタスクに特化した既存のデータセットがないため、MetaGraspNetV2データセットを人間が注釈を付けた指示とグラウンドトゥルースの把持シーケンスで拡張した合成データセットFreeGraspDataを導入します。FreeGraspDataを用いた詳細な分析と、グリッパーを装備したロボットアームによる実世界での検証を行い、把持推論と実行において最先端の性能を実証します。プロジェクトウェブサイト: https://tev-fbk.github.io/FreeGrasp/。
English
Performing robotic grasping from a cluttered bin based on human instructions
is a challenging task, as it requires understanding both the nuances of
free-form language and the spatial relationships between objects.
Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have
demonstrated remarkable reasoning capabilities across both text and images. But
can they truly be used for this task in a zero-shot setting? And what are their
limitations? In this paper, we explore these research questions via the
free-form language-based robotic grasping task, and propose a novel method,
FreeGrasp, leveraging the pre-trained VLMs' world knowledge to reason about
human instructions and object spatial arrangements. Our method detects all
objects as keypoints and uses these keypoints to annotate marks on images,
aiming to facilitate GPT-4o's zero-shot spatial reasoning. This allows our
method to determine whether a requested object is directly graspable or if
other objects must be grasped and removed first. Since no existing dataset is
specifically designed for this task, we introduce a synthetic dataset
FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated
instructions and ground-truth grasping sequences. We conduct extensive analyses
with both FreeGraspData and real-world validation with a gripper-equipped
robotic arm, demonstrating state-of-the-art performance in grasp reasoning and
execution. Project website: https://tev-fbk.github.io/FreeGrasp/.Summary
AI-Generated Summary