ThinkGrasp: Ein Vision-Sprach-System für strategisches Greifen von Teilen in Unordnung
ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter
July 16, 2024
Autoren: Yaoyao Qian, Xupeng Zhu, Ondrej Biza, Shuo Jiang, Linfeng Zhao, Haojie Huang, Yu Qi, Robert Platt
cs.AI
Zusammenfassung
Die robotergestützte Greiftechnik in überfüllten Umgebungen bleibt aufgrund von Verdeckungen und komplexen Objektanordnungen eine bedeutende Herausforderung. Wir haben ThinkGrasp entwickelt, ein Plug-and-Play-Vision-Sprach-Greifsystem, das die fortschrittliche kontextbezogene Argumentation von GPT-4o für Greifstrategien in stark überfüllten Umgebungen nutzt. ThinkGrasp kann effektiv Greifpositionen für Zielobjekte identifizieren und generieren, selbst wenn sie stark verdeckt oder nahezu unsichtbar sind, indem es zielgerichtete Sprache verwendet, um die Beseitigung hindernder Objekte zu leiten. Dieser Ansatz deckt das Zielobjekt schrittweise auf und greift es letztendlich mit wenigen Schritten und einer hohen Erfolgsquote. In sowohl simulierten als auch realen Experimenten erzielte ThinkGrasp eine hohe Erfolgsquote und übertraf signifikant Methoden auf dem neuesten Stand der Technik in stark überfüllten Umgebungen oder mit vielfältigen unbekannten Objekten, was starke Verallgemeinerungsfähigkeiten zeigt.
English
Robotic grasping in cluttered environments remains a significant challenge
due to occlusions and complex object arrangements. We have developed
ThinkGrasp, a plug-and-play vision-language grasping system that makes use of
GPT-4o's advanced contextual reasoning for heavy clutter environment grasping
strategies. ThinkGrasp can effectively identify and generate grasp poses for
target objects, even when they are heavily obstructed or nearly invisible, by
using goal-oriented language to guide the removal of obstructing objects. This
approach progressively uncovers the target object and ultimately grasps it with
a few steps and a high success rate. In both simulated and real experiments,
ThinkGrasp achieved a high success rate and significantly outperformed
state-of-the-art methods in heavily cluttered environments or with diverse
unseen objects, demonstrating strong generalization capabilities.Summary
AI-Generated Summary