ThinkGrasp: Un Sistema Visione-Linguaggio per la Presa Strategica di Parti in Ambienti Disordinati
ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter
July 16, 2024
Autori: Yaoyao Qian, Xupeng Zhu, Ondrej Biza, Shuo Jiang, Linfeng Zhao, Haojie Huang, Yu Qi, Robert Platt
cs.AI
Abstract
La presa robotica in ambienti affollati rimane una sfida significativa
a causa delle occlusioni e delle complesse disposizioni degli oggetti. Abbiamo sviluppato
ThinkGrasp, un sistema di presa visione-linguaggio plug-and-play che sfrutta
il ragionamento contestuale avanzato di GPT-4o per strategie di presa in ambienti molto affollati.
ThinkGrasp è in grado di identificare e generare efficacemente pose di presa per
oggetti target, anche quando sono fortemente ostruiti o quasi invisibili, utilizzando
un linguaggio orientato agli obiettivi per guidare la rimozione degli oggetti ostruenti. Questo
approccio scopre progressivamente l'oggetto target e alla fine lo afferra con
pochi passaggi e un alto tasso di successo. Sia negli esperimenti simulati che in quelli reali,
ThinkGrasp ha raggiunto un alto tasso di successo e ha superato significativamente
i metodi all'avanguardia in ambienti molto affollati o con oggetti diversi e mai visti prima, dimostrando forti capacità di generalizzazione.
English
Robotic grasping in cluttered environments remains a significant challenge
due to occlusions and complex object arrangements. We have developed
ThinkGrasp, a plug-and-play vision-language grasping system that makes use of
GPT-4o's advanced contextual reasoning for heavy clutter environment grasping
strategies. ThinkGrasp can effectively identify and generate grasp poses for
target objects, even when they are heavily obstructed or nearly invisible, by
using goal-oriented language to guide the removal of obstructing objects. This
approach progressively uncovers the target object and ultimately grasps it with
a few steps and a high success rate. In both simulated and real experiments,
ThinkGrasp achieved a high success rate and significantly outperformed
state-of-the-art methods in heavily cluttered environments or with diverse
unseen objects, demonstrating strong generalization capabilities.