ChatPaper.aiChatPaper

ThinkGasp: 혼잡한 환경에서 전략적 부품 파지를 위한 시각-언어 시스템

ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter

July 16, 2024
저자: Yaoyao Qian, Xupeng Zhu, Ondrej Biza, Shuo Jiang, Linfeng Zhao, Haojie Huang, Yu Qi, Robert Platt
cs.AI

초록

복잡한 환경에서의 로봇 그리핑은 가려짐 현상과 복잡한 물체 배치로 인해 여전히 큰 도전 과제로 남아 있습니다. 우리는 GPT-4o의 고급 문맥 추론 능력을 활용하여 복잡한 환경에서의 그리핑 전략을 구현한 플러그 앤 플레이 방식의 비전-언어 그리핑 시스템인 ThinkGrasp를 개발했습니다. ThinkGrasp는 목표 지향적 언어를 사용하여 가려진 물체를 제거함으로써, 심하게 가려져 있거나 거의 보이지 않는 대상 물체를 효과적으로 식별하고 그리핑 포즈를 생성할 수 있습니다. 이 접근 방식은 점진적으로 대상 물체를 드러내고, 몇 단계만에 높은 성공률로 최종적으로 그리핑을 수행합니다. 시뮬레이션과 실제 실험 모두에서 ThinkGrasp는 높은 성공률을 달성했으며, 특히 심하게 복잡한 환경이나 다양한 미지의 물체에서 최신 기술을 크게 능가하며 강력한 일반화 능력을 입증했습니다.
English
Robotic grasping in cluttered environments remains a significant challenge due to occlusions and complex object arrangements. We have developed ThinkGrasp, a plug-and-play vision-language grasping system that makes use of GPT-4o's advanced contextual reasoning for heavy clutter environment grasping strategies. ThinkGrasp can effectively identify and generate grasp poses for target objects, even when they are heavily obstructed or nearly invisible, by using goal-oriented language to guide the removal of obstructing objects. This approach progressively uncovers the target object and ultimately grasps it with a few steps and a high success rate. In both simulated and real experiments, ThinkGrasp achieved a high success rate and significantly outperformed state-of-the-art methods in heavily cluttered environments or with diverse unseen objects, demonstrating strong generalization capabilities.

Summary

AI-Generated Summary

PDF52November 28, 2024