ThinkGrasp: Un Sistema Visione-Linguaggio per la Presa Strategica di Parti in Ambienti Disordinati

Abstract

La presa robotica in ambienti affollati rimane una sfida significativa a causa delle occlusioni e delle complesse disposizioni degli oggetti. Abbiamo sviluppato ThinkGrasp, un sistema di presa visione-linguaggio plug-and-play che sfrutta il ragionamento contestuale avanzato di GPT-4o per strategie di presa in ambienti molto affollati. ThinkGrasp è in grado di identificare e generare efficacemente pose di presa per oggetti target, anche quando sono fortemente ostruiti o quasi invisibili, utilizzando un linguaggio orientato agli obiettivi per guidare la rimozione degli oggetti ostruenti. Questo approccio scopre progressivamente l'oggetto target e alla fine lo afferra con pochi passaggi e un alto tasso di successo. Sia negli esperimenti simulati che in quelli reali, ThinkGrasp ha raggiunto un alto tasso di successo e ha superato significativamente i metodi all'avanguardia in ambienti molto affollati o con oggetti diversi e mai visti prima, dimostrando forti capacità di generalizzazione.

English

Robotic grasping in cluttered environments remains a significant challenge due to occlusions and complex object arrangements. We have developed ThinkGrasp, a plug-and-play vision-language grasping system that makes use of GPT-4o's advanced contextual reasoning for heavy clutter environment grasping strategies. ThinkGrasp can effectively identify and generate grasp poses for target objects, even when they are heavily obstructed or nearly invisible, by using goal-oriented language to guide the removal of obstructing objects. This approach progressively uncovers the target object and ultimately grasps it with a few steps and a high success rate. In both simulated and real experiments, ThinkGrasp achieved a high success rate and significantly outperformed state-of-the-art methods in heavily cluttered environments or with diverse unseen objects, demonstrating strong generalization capabilities.

ThinkGrasp: Un Sistema Visione-Linguaggio per la Presa Strategica di Parti in Ambienti Disordinati

ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter

Abstract

Support