ChatPaper.aiChatPaper

OK-Robot: Lo que realmente importa en la integración de modelos de conocimiento abierto para robótica

OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

January 22, 2024
Autores: Peiqi Liu, Yaswanth Orru, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI

Resumen

En los últimos años se han logrado avances notables en los campos de visión, lenguaje y robótica. Actualmente contamos con modelos de visión capaces de reconocer objetos basados en consultas de lenguaje, sistemas de navegación que pueden controlar eficazmente sistemas móviles, y modelos de manipulación que pueden manejar una amplia variedad de objetos. A pesar de estos progresos, las aplicaciones de robótica de propósito general aún están rezagadas, aunque dependen de estas capacidades fundamentales de reconocimiento, navegación y manipulación. En este artículo, adoptamos un enfoque centrado en sistemas para desarrollar un nuevo marco de robótica basado en Conocimiento Abierto llamado OK-Robot. Al combinar Modelos de Visión-Lenguaje (VLMs) para la detección de objetos, primitivas de navegación para el movimiento y primitivas de manipulación para la interacción con objetos, OK-Robot ofrece una solución integrada para operaciones de recoger y soltar sin requerir ningún entrenamiento. Para evaluar su rendimiento, ejecutamos OK-Robot en 10 entornos domésticos del mundo real. Los resultados demuestran que OK-Robot alcanza una tasa de éxito del 58.5% en tareas abiertas de recoger y soltar, estableciendo un nuevo estado del arte en Manipulación Móvil de Vocabulario Abierto (OVMM) con un rendimiento casi 1.8 veces superior al de trabajos previos. En entornos más limpios y ordenados, el rendimiento de OK-Robot aumenta al 82%. Sin embargo, la conclusión más importante obtenida de OK-Robot es el papel crítico de los detalles sutiles al combinar sistemas de Conocimiento Abierto como los VLMs con módulos robóticos. Los videos de nuestros experimentos están disponibles en nuestro sitio web: https://ok-robot.github.io
English
Remarkable progress has been made in recent years in the fields of vision, language, and robotics. We now have vision models capable of recognizing objects based on language queries, navigation systems that can effectively control mobile systems, and grasping models that can handle a wide range of objects. Despite these advancements, general-purpose applications of robotics still lag behind, even though they rely on these fundamental capabilities of recognition, navigation, and grasping. In this paper, we adopt a systems-first approach to develop a new Open Knowledge-based robotics framework called OK-Robot. By combining Vision-Language Models (VLMs) for object detection, navigation primitives for movement, and grasping primitives for object manipulation, OK-Robot offers a integrated solution for pick-and-drop operations without requiring any training. To evaluate its performance, we run OK-Robot in 10 real-world home environments. The results demonstrate that OK-Robot achieves a 58.5% success rate in open-ended pick-and-drop tasks, representing a new state-of-the-art in Open Vocabulary Mobile Manipulation (OVMM) with nearly 1.8x the performance of prior work. On cleaner, uncluttered environments, OK-Robot's performance increases to 82%. However, the most important insight gained from OK-Robot is the critical role of nuanced details when combining Open Knowledge systems like VLMs with robotic modules. Videos of our experiments are available on our website: https://ok-robot.github.io
PDF102December 15, 2024