ThinkGrasp: Система зрительного языка для стратегического захвата частей в беспорядке

Аннотация

Роботизированный захват в загроможденных средах остается значительным вызовом из-за заслонений и сложных расстановок объектов. Мы разработали ThinkGrasp, систему захвата на основе видения и языка, которая использует передовое контекстное рассуждение GPT-4o для стратегий захвата в условиях высокой загруженности. ThinkGrasp способен эффективно определять и генерировать позы захвата для целевых объектов, даже если они сильно закрыты или почти невидимы, используя целевой язык для направления удаления препятствующих объектов. Этот подход постепенно обнаруживает целевой объект и в конечном итоге захватывает его за несколько шагов с высокой успешностью. В как в симуляциях, так и в реальных экспериментах ThinkGrasp достиг высокой успешности и значительно превзошел методы новейших достижений в сильно загроможденных средах или с разнообразными невидимыми объектами, демонстрируя сильные обобщающие способности.

English

Robotic grasping in cluttered environments remains a significant challenge due to occlusions and complex object arrangements. We have developed ThinkGrasp, a plug-and-play vision-language grasping system that makes use of GPT-4o's advanced contextual reasoning for heavy clutter environment grasping strategies. ThinkGrasp can effectively identify and generate grasp poses for target objects, even when they are heavily obstructed or nearly invisible, by using goal-oriented language to guide the removal of obstructing objects. This approach progressively uncovers the target object and ultimately grasps it with a few steps and a high success rate. In both simulated and real experiments, ThinkGrasp achieved a high success rate and significantly outperformed state-of-the-art methods in heavily cluttered environments or with diverse unseen objects, demonstrating strong generalization capabilities.

ThinkGrasp: Система зрительного языка для стратегического захвата частей в беспорядке

ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter

Аннотация

Support