ChatPaper.aiChatPaper

ThinkGrasp: クラッター環境における戦略的パーツ把持のための視覚-言語システム

ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter

July 16, 2024
著者: Yaoyao Qian, Xupeng Zhu, Ondrej Biza, Shuo Jiang, Linfeng Zhao, Haojie Huang, Yu Qi, Robert Platt
cs.AI

要旨

混雑した環境におけるロボット把持は、遮蔽物や複雑な物体配置のため、依然として大きな課題となっています。私たちは、GPT-4oの高度な文脈推論を活用したプラグアンドプレイ型の視覚-言語把持システム「ThinkGrasp」を開発しました。ThinkGraspは、目標指向の言語を用いて遮蔽物の除去を導くことで、重度に遮蔽されていてもほぼ見えない状態のターゲット物体に対しても、効果的に把持姿勢を特定し生成することができます。このアプローチにより、ターゲット物体を段階的に見つけ出し、最終的には少ないステップで高い成功率で把持することが可能です。シミュレーションおよび実環境での実験において、ThinkGraspは高い成功率を達成し、重度に混雑した環境や多様な未見物体においても最先端の手法を大幅に上回り、強力な汎化能力を示しました。
English
Robotic grasping in cluttered environments remains a significant challenge due to occlusions and complex object arrangements. We have developed ThinkGrasp, a plug-and-play vision-language grasping system that makes use of GPT-4o's advanced contextual reasoning for heavy clutter environment grasping strategies. ThinkGrasp can effectively identify and generate grasp poses for target objects, even when they are heavily obstructed or nearly invisible, by using goal-oriented language to guide the removal of obstructing objects. This approach progressively uncovers the target object and ultimately grasps it with a few steps and a high success rate. In both simulated and real experiments, ThinkGrasp achieved a high success rate and significantly outperformed state-of-the-art methods in heavily cluttered environments or with diverse unseen objects, demonstrating strong generalization capabilities.

Summary

AI-Generated Summary

PDF52November 28, 2024