ThinkGrasp: Een Visie-Taal Systeem voor Strategisch Onderdeel Grijpen in Rommel
ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter
July 16, 2024
Auteurs: Yaoyao Qian, Xupeng Zhu, Ondrej Biza, Shuo Jiang, Linfeng Zhao, Haojie Huang, Yu Qi, Robert Platt
cs.AI
Samenvatting
Robotisch grijpen in rommelige omgevingen blijft een aanzienlijke uitdaging
vanwege occlusies en complexe objectarrangementen. We hebben ThinkGrasp ontwikkeld,
een plug-and-play visie-taal grijpsysteem dat gebruikmaakt van
GPT-4o's geavanceerde contextuele redeneervaardigheden voor grijpstrategieën in zwaar rommelige omgevingen.
ThinkGrasp kan effectief grijpposities identificeren en genereren voor
doelobjecten, zelfs wanneer deze zwaar gehinderd of bijna onzichtbaar zijn, door
doelgerichte taal te gebruiken om het verwijderen van hinderende objecten te begeleiden. Deze
aanpak legt het doelobject geleidelijk bloot en grijpt het uiteindelijk in
een paar stappen en met een hoog slagingspercentage. In zowel gesimuleerde als echte experimenten
behaalde ThinkGrasp een hoog slagingspercentage en overtrof het significant
state-of-the-art methoden in zwaar rommelige omgevingen of met diverse
onbekende objecten, wat sterke generalisatiecapaciteiten aantoont.
English
Robotic grasping in cluttered environments remains a significant challenge
due to occlusions and complex object arrangements. We have developed
ThinkGrasp, a plug-and-play vision-language grasping system that makes use of
GPT-4o's advanced contextual reasoning for heavy clutter environment grasping
strategies. ThinkGrasp can effectively identify and generate grasp poses for
target objects, even when they are heavily obstructed or nearly invisible, by
using goal-oriented language to guide the removal of obstructing objects. This
approach progressively uncovers the target object and ultimately grasps it with
a few steps and a high success rate. In both simulated and real experiments,
ThinkGrasp achieved a high success rate and significantly outperformed
state-of-the-art methods in heavily cluttered environments or with diverse
unseen objects, demonstrating strong generalization capabilities.