ThinkGrasp: Система зрительного языка для стратегического захвата частей в беспорядке
ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter
July 16, 2024
Авторы: Yaoyao Qian, Xupeng Zhu, Ondrej Biza, Shuo Jiang, Linfeng Zhao, Haojie Huang, Yu Qi, Robert Platt
cs.AI
Аннотация
Роботизированный захват в загроможденных средах остается значительным вызовом из-за заслонений и сложных расстановок объектов. Мы разработали ThinkGrasp, систему захвата на основе видения и языка, которая использует передовое контекстное рассуждение GPT-4o для стратегий захвата в условиях высокой загруженности. ThinkGrasp способен эффективно определять и генерировать позы захвата для целевых объектов, даже если они сильно закрыты или почти невидимы, используя целевой язык для направления удаления препятствующих объектов. Этот подход постепенно обнаруживает целевой объект и в конечном итоге захватывает его за несколько шагов с высокой успешностью. В как в симуляциях, так и в реальных экспериментах ThinkGrasp достиг высокой успешности и значительно превзошел методы новейших достижений в сильно загроможденных средах или с разнообразными невидимыми объектами, демонстрируя сильные обобщающие способности.
English
Robotic grasping in cluttered environments remains a significant challenge
due to occlusions and complex object arrangements. We have developed
ThinkGrasp, a plug-and-play vision-language grasping system that makes use of
GPT-4o's advanced contextual reasoning for heavy clutter environment grasping
strategies. ThinkGrasp can effectively identify and generate grasp poses for
target objects, even when they are heavily obstructed or nearly invisible, by
using goal-oriented language to guide the removal of obstructing objects. This
approach progressively uncovers the target object and ultimately grasps it with
a few steps and a high success rate. In both simulated and real experiments,
ThinkGrasp achieved a high success rate and significantly outperformed
state-of-the-art methods in heavily cluttered environments or with diverse
unseen objects, demonstrating strong generalization capabilities.Summary
AI-Generated Summary