Raciocínio robótico e manipulação baseados em linguagem de forma livre
Free-form language-based robotic reasoning and grasping
March 17, 2025
Autores: Runyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi
cs.AI
Resumo
Realizar a preensão robótica a partir de uma caixa desorganizada com base em instruções humanas é uma tarefa desafiadora, pois exige a compreensão tanto das nuances da linguagem livre quanto das relações espaciais entre os objetos. Modelos de Visão e Linguagem (VLMs) treinados com dados em escala da web, como o GPT-4o, demonstraram capacidades notáveis de raciocínio tanto em texto quanto em imagens. Mas eles podem realmente ser usados para essa tarefa em um cenário zero-shot? E quais são suas limitações? Neste artigo, exploramos essas questões de pesquisa por meio da tarefa de preensão robótica baseada em linguagem livre e propomos um novo método, o FreeGrasp, que aproveita o conhecimento pré-treinado dos VLMs para raciocinar sobre instruções humanas e arranjos espaciais de objetos. Nosso método detecta todos os objetos como pontos-chave e usa esses pontos para anotar marcas nas imagens, visando facilitar o raciocínio espacial zero-shot do GPT-4o. Isso permite que nosso método determine se um objeto solicitado é diretamente preensível ou se outros objetos devem ser agarrados e removidos primeiro. Como não existe um conjunto de dados especificamente projetado para essa tarefa, introduzimos um conjunto de dados sintético, o FreeGraspData, estendendo o conjunto de dados MetaGraspNetV2 com instruções anotadas por humanos e sequências de preensão com rótulos verdadeiros. Realizamos análises extensas com o FreeGraspData e validação no mundo real com um braço robótico equipado com uma garra, demonstrando desempenho de ponta em raciocínio e execução de preensão. Site do projeto: https://tev-fbk.github.io/FreeGrasp/.
English
Performing robotic grasping from a cluttered bin based on human instructions
is a challenging task, as it requires understanding both the nuances of
free-form language and the spatial relationships between objects.
Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have
demonstrated remarkable reasoning capabilities across both text and images. But
can they truly be used for this task in a zero-shot setting? And what are their
limitations? In this paper, we explore these research questions via the
free-form language-based robotic grasping task, and propose a novel method,
FreeGrasp, leveraging the pre-trained VLMs' world knowledge to reason about
human instructions and object spatial arrangements. Our method detects all
objects as keypoints and uses these keypoints to annotate marks on images,
aiming to facilitate GPT-4o's zero-shot spatial reasoning. This allows our
method to determine whether a requested object is directly graspable or if
other objects must be grasped and removed first. Since no existing dataset is
specifically designed for this task, we introduce a synthetic dataset
FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated
instructions and ground-truth grasping sequences. We conduct extensive analyses
with both FreeGraspData and real-world validation with a gripper-equipped
robotic arm, demonstrating state-of-the-art performance in grasp reasoning and
execution. Project website: https://tev-fbk.github.io/FreeGrasp/.Summary
AI-Generated Summary