OK-Robot: Lo que realmente importa en la integración de modelos de conocimiento abierto para robótica
OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics
January 22, 2024
Autores: Peiqi Liu, Yaswanth Orru, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI
Resumen
En los últimos años se han logrado avances notables en los campos de visión, lenguaje y robótica. Actualmente contamos con modelos de visión capaces de reconocer objetos basados en consultas de lenguaje, sistemas de navegación que pueden controlar eficazmente sistemas móviles, y modelos de manipulación que pueden manejar una amplia variedad de objetos. A pesar de estos progresos, las aplicaciones de robótica de propósito general aún están rezagadas, aunque dependen de estas capacidades fundamentales de reconocimiento, navegación y manipulación. En este artículo, adoptamos un enfoque centrado en sistemas para desarrollar un nuevo marco de robótica basado en Conocimiento Abierto llamado OK-Robot. Al combinar Modelos de Visión-Lenguaje (VLMs) para la detección de objetos, primitivas de navegación para el movimiento y primitivas de manipulación para la interacción con objetos, OK-Robot ofrece una solución integrada para operaciones de recoger y soltar sin requerir ningún entrenamiento. Para evaluar su rendimiento, ejecutamos OK-Robot en 10 entornos domésticos del mundo real. Los resultados demuestran que OK-Robot alcanza una tasa de éxito del 58.5% en tareas abiertas de recoger y soltar, estableciendo un nuevo estado del arte en Manipulación Móvil de Vocabulario Abierto (OVMM) con un rendimiento casi 1.8 veces superior al de trabajos previos. En entornos más limpios y ordenados, el rendimiento de OK-Robot aumenta al 82%. Sin embargo, la conclusión más importante obtenida de OK-Robot es el papel crítico de los detalles sutiles al combinar sistemas de Conocimiento Abierto como los VLMs con módulos robóticos. Los videos de nuestros experimentos están disponibles en nuestro sitio web: https://ok-robot.github.io
English
Remarkable progress has been made in recent years in the fields of vision,
language, and robotics. We now have vision models capable of recognizing
objects based on language queries, navigation systems that can effectively
control mobile systems, and grasping models that can handle a wide range of
objects. Despite these advancements, general-purpose applications of robotics
still lag behind, even though they rely on these fundamental capabilities of
recognition, navigation, and grasping. In this paper, we adopt a systems-first
approach to develop a new Open Knowledge-based robotics framework called
OK-Robot. By combining Vision-Language Models (VLMs) for object detection,
navigation primitives for movement, and grasping primitives for object
manipulation, OK-Robot offers a integrated solution for pick-and-drop
operations without requiring any training. To evaluate its performance, we run
OK-Robot in 10 real-world home environments. The results demonstrate that
OK-Robot achieves a 58.5% success rate in open-ended pick-and-drop tasks,
representing a new state-of-the-art in Open Vocabulary Mobile Manipulation
(OVMM) with nearly 1.8x the performance of prior work. On cleaner, uncluttered
environments, OK-Robot's performance increases to 82%. However, the most
important insight gained from OK-Robot is the critical role of nuanced details
when combining Open Knowledge systems like VLMs with robotic modules. Videos of
our experiments are available on our website: https://ok-robot.github.io