Свободное языковое управление роботизированным рассуждением и захватом объектов
Free-form language-based robotic reasoning and grasping
March 17, 2025
Авторы: Runyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi
cs.AI
Аннотация
Выполнение роботизированного захвата объектов из загруженного контейнера на основе человеческих инструкций представляет собой сложную задачу, так как требует понимания как нюансов свободного языка, так и пространственных отношений между объектами. Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), обученные на данных веб-масштаба, такие как GPT-4o, продемонстрировали впечатляющие способности к рассуждению как в тексте, так и в изображениях. Но можно ли их действительно использовать для этой задачи в условиях zero-shot? И каковы их ограничения? В данной статье мы исследуем эти вопросы с помощью задачи роботизированного захвата на основе свободного языка и предлагаем новый метод FreeGrasp, который использует предварительно обученные VLMs для анализа человеческих инструкций и пространственного расположения объектов. Наш метод обнаруживает все объекты как ключевые точки и использует эти точки для аннотирования изображений, что способствует пространственному рассуждению GPT-4o в условиях zero-shot. Это позволяет нашему методу определить, доступен ли запрошенный объект для непосредственного захвата или сначала необходимо захватить и убрать другие объекты. Поскольку ни один существующий набор данных не предназначен специально для этой задачи, мы представляем синтетический набор данных FreeGraspData, расширяя набор данных MetaGraspNetV2 аннотированными инструкциями и последовательностями захвата, созданными человеком. Мы проводим обширный анализ с использованием FreeGraspData и проверяем метод в реальных условиях с помощью роботизированной руки, оснащенной захватным устройством, демонстрируя передовые результаты в рассуждении и выполнении захвата. Сайт проекта: https://tev-fbk.github.io/FreeGrasp/.
English
Performing robotic grasping from a cluttered bin based on human instructions
is a challenging task, as it requires understanding both the nuances of
free-form language and the spatial relationships between objects.
Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have
demonstrated remarkable reasoning capabilities across both text and images. But
can they truly be used for this task in a zero-shot setting? And what are their
limitations? In this paper, we explore these research questions via the
free-form language-based robotic grasping task, and propose a novel method,
FreeGrasp, leveraging the pre-trained VLMs' world knowledge to reason about
human instructions and object spatial arrangements. Our method detects all
objects as keypoints and uses these keypoints to annotate marks on images,
aiming to facilitate GPT-4o's zero-shot spatial reasoning. This allows our
method to determine whether a requested object is directly graspable or if
other objects must be grasped and removed first. Since no existing dataset is
specifically designed for this task, we introduce a synthetic dataset
FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated
instructions and ground-truth grasping sequences. We conduct extensive analyses
with both FreeGraspData and real-world validation with a gripper-equipped
robotic arm, demonstrating state-of-the-art performance in grasp reasoning and
execution. Project website: https://tev-fbk.github.io/FreeGrasp/.