ThinkGrasp: Un sistema Visión-Lenguaje para la Agarre Estratégico de Partes en Desorden
ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter
July 16, 2024
Autores: Yaoyao Qian, Xupeng Zhu, Ondrej Biza, Shuo Jiang, Linfeng Zhao, Haojie Huang, Yu Qi, Robert Platt
cs.AI
Resumen
La manipulación robótica en entornos con obstáculos sigue siendo un desafío significativo debido a las obstrucciones y a la disposición compleja de los objetos. Hemos desarrollado ThinkGrasp, un sistema de manipulación visión-lenguaje listo para usar que aprovecha el razonamiento contextual avanzado de GPT-4o para estrategias de manipulación en entornos con gran desorden. ThinkGrasp puede identificar y generar eficazmente posturas de agarre para objetos objetivo, incluso cuando están fuertemente obstruidos o casi invisibles, utilizando un lenguaje orientado a objetivos para guiar la eliminación de objetos obstruyentes. Este enfoque descubre progresivamente el objeto objetivo y finalmente lo agarra con unos pocos pasos y una alta tasa de éxito. En experimentos simulados y reales, ThinkGrasp logró una alta tasa de éxito y superó significativamente a los métodos de vanguardia en entornos con gran desorden o con objetos diversos no vistos, demostrando sólidas capacidades de generalización.
English
Robotic grasping in cluttered environments remains a significant challenge
due to occlusions and complex object arrangements. We have developed
ThinkGrasp, a plug-and-play vision-language grasping system that makes use of
GPT-4o's advanced contextual reasoning for heavy clutter environment grasping
strategies. ThinkGrasp can effectively identify and generate grasp poses for
target objects, even when they are heavily obstructed or nearly invisible, by
using goal-oriented language to guide the removal of obstructing objects. This
approach progressively uncovers the target object and ultimately grasps it with
a few steps and a high success rate. In both simulated and real experiments,
ThinkGrasp achieved a high success rate and significantly outperformed
state-of-the-art methods in heavily cluttered environments or with diverse
unseen objects, demonstrating strong generalization capabilities.Summary
AI-Generated Summary