ThinkGrasp: Een Visie-Taal Systeem voor Strategisch Onderdeel Grijpen in Rommel

Samenvatting

Robotisch grijpen in rommelige omgevingen blijft een aanzienlijke uitdaging vanwege occlusies en complexe objectarrangementen. We hebben ThinkGrasp ontwikkeld, een plug-and-play visie-taal grijpsysteem dat gebruikmaakt van GPT-4o's geavanceerde contextuele redeneervaardigheden voor grijpstrategieën in zwaar rommelige omgevingen. ThinkGrasp kan effectief grijpposities identificeren en genereren voor doelobjecten, zelfs wanneer deze zwaar gehinderd of bijna onzichtbaar zijn, door doelgerichte taal te gebruiken om het verwijderen van hinderende objecten te begeleiden. Deze aanpak legt het doelobject geleidelijk bloot en grijpt het uiteindelijk in een paar stappen en met een hoog slagingspercentage. In zowel gesimuleerde als echte experimenten behaalde ThinkGrasp een hoog slagingspercentage en overtrof het significant state-of-the-art methoden in zwaar rommelige omgevingen of met diverse onbekende objecten, wat sterke generalisatiecapaciteiten aantoont.

English

Robotic grasping in cluttered environments remains a significant challenge due to occlusions and complex object arrangements. We have developed ThinkGrasp, a plug-and-play vision-language grasping system that makes use of GPT-4o's advanced contextual reasoning for heavy clutter environment grasping strategies. ThinkGrasp can effectively identify and generate grasp poses for target objects, even when they are heavily obstructed or nearly invisible, by using goal-oriented language to guide the removal of obstructing objects. This approach progressively uncovers the target object and ultimately grasps it with a few steps and a high success rate. In both simulated and real experiments, ThinkGrasp achieved a high success rate and significantly outperformed state-of-the-art methods in heavily cluttered environments or with diverse unseen objects, demonstrating strong generalization capabilities.

ThinkGrasp: Een Visie-Taal Systeem voor Strategisch Onderdeel Grijpen in Rommel

ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter

Samenvatting

Support